2025-05-07T19:40:44.5634526Z Current runner version: '2.323.0'
2025-05-07T19:40:44.5643685Z Runner name: 'i-050aa4155d8879248'
2025-05-07T19:40:44.5645075Z Machine name: 'ip-10-0-14-233'
2025-05-07T19:40:44.5648668Z ##[group]GITHUB_TOKEN Permissions
2025-05-07T19:40:44.5652385Z Contents: read
2025-05-07T19:40:44.5653124Z Metadata: read
2025-05-07T19:40:44.5654051Z ##[endgroup]
2025-05-07T19:40:44.5657102Z Secret source: None
2025-05-07T19:40:44.5658163Z Prepare workflow directory
2025-05-07T19:40:44.6519480Z Prepare all required actions
2025-05-07T19:40:44.6575507Z Getting action download info
2025-05-07T19:40:44.8463662Z Download action repository 'actions/checkout@11bd71901bbe5b1630ceea73d27597364c9af683' (SHA:11bd71901bbe5b1630ceea73d27597364c9af683)
2025-05-07T19:40:45.1430032Z Download action repository 'actions/upload-artifact@ea165f8d65b6e75b540449e92b4886f43607fa02' (SHA:ea165f8d65b6e75b540449e92b4886f43607fa02)
2025-05-07T19:40:45.7056598Z Complete job name: pytorch/FBGEMM / build-wheel-py3_9-cuda-aarch6412_8-aarch64
2025-05-07T19:40:45.7804184Z A job started hook has been configured by the self-hosted runner administrator
2025-05-07T19:40:45.7973617Z ##[group]Run '/home/ec2-user/runner-scripts/before_job.sh'
2025-05-07T19:40:45.7988089Z shell: /usr/bin/bash --noprofile --norc -e -o pipefail {0}
2025-05-07T19:40:45.7989436Z ##[endgroup]
2025-05-07T19:40:47.1080479Z Runner Type: linux.arm64.m7g.4xlarge
2025-05-07T19:40:47.1081553Z Instance Type: m7g.4xlarge
2025-05-07T19:40:47.1081827Z AMI Name: unknown
2025-05-07T19:40:47.1108311Z AMI ID: ami-0013610ea966aafe0
2025-05-07T19:40:53.7305368Z ##[group]Checking docker version
2025-05-07T19:40:53.7322380Z ##[command]/usr/bin/docker version --format '{{.Server.APIVersion}}'
2025-05-07T19:40:53.7496998Z '1.44'
2025-05-07T19:40:53.7521000Z Docker daemon API version: '1.44'
2025-05-07T19:40:53.7521517Z ##[command]/usr/bin/docker version --format '{{.Client.APIVersion}}'
2025-05-07T19:40:53.7676701Z '1.44'
2025-05-07T19:40:53.7692621Z Docker client API version: '1.44'
2025-05-07T19:40:53.7699416Z ##[endgroup]
2025-05-07T19:40:53.7703635Z ##[group]Clean up resources from previous jobs
2025-05-07T19:40:53.7710231Z ##[command]/usr/bin/docker ps --all --quiet --no-trunc --filter "label=5b55f5"
2025-05-07T19:40:53.7851818Z ##[command]/usr/bin/docker network prune --force --filter "label=5b55f5"
2025-05-07T19:40:53.7981924Z ##[endgroup]
2025-05-07T19:40:53.7982279Z ##[group]Create local container network
2025-05-07T19:40:53.7994482Z ##[command]/usr/bin/docker network create --label 5b55f5 github_network_682bb2285bea4b2c8b06125769a92e52
2025-05-07T19:40:54.0761558Z dd27350ebd6e16089a383d172b03c4f8f3e107961c6bd685076a211ebde7b193
2025-05-07T19:40:54.0782127Z ##[endgroup]
2025-05-07T19:40:54.0813035Z ##[group]Starting job container
2025-05-07T19:40:54.0839964Z ##[command]/usr/bin/docker pull pytorch/manylinuxaarch64-builder:cuda12.8
2025-05-07T19:40:54.2240216Z cuda12.8: Pulling from pytorch/manylinuxaarch64-builder
2025-05-07T19:40:54.2266622Z Digest: sha256:71c0a3671b336ebe4d5e41717424517e41b34117b8979025c8edc954c28b9628
2025-05-07T19:40:54.2267218Z Status: Image is up to date for pytorch/manylinuxaarch64-builder:cuda12.8
2025-05-07T19:40:54.2291714Z docker.io/pytorch/manylinuxaarch64-builder:cuda12.8
2025-05-07T19:40:54.2390242Z ##[command]/usr/bin/docker create --name 942317bcbb4542cbbd64fa2992180430_pytorchmanylinuxaarch64buildercuda128_f33e4e --label 5b55f5 --workdir /__w/FBGEMM/FBGEMM --network github_network_682bb2285bea4b2c8b06125769a92e52   -e "HOME=/github/home" -e GITHUB_ACTIONS=true -e CI=true -v "/var/run/docker.sock":"/var/run/docker.sock" -v "/home/ec2-user/actions-runner/_work":"/__w" -v "/home/ec2-user/actions-runner/externals":"/__e":ro -v "/home/ec2-user/actions-runner/_work/_temp":"/__w/_temp" -v "/home/ec2-user/actions-runner/_work/_actions":"/__w/_actions" -v "/home/ec2-user/actions-runner/_work/_tool":"/__w/_tool" -v "/home/ec2-user/actions-runner/_work/_temp/_github_home":"/github/home" -v "/home/ec2-user/actions-runner/_work/_temp/_github_workflow":"/github/workflow" --entrypoint "tail" pytorch/manylinuxaarch64-builder:cuda12.8 "-f" "/dev/null"
2025-05-07T19:40:54.2838193Z c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9
2025-05-07T19:40:54.2863795Z ##[command]/usr/bin/docker start c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9
2025-05-07T19:40:54.7629925Z c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9
2025-05-07T19:40:54.7646753Z ##[command]/usr/bin/docker ps --all --filter id=c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9 --filter status=running --no-trunc --format "{{.ID}} {{.Status}}"
2025-05-07T19:40:54.7753569Z c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9 Up Less than a second
2025-05-07T19:40:54.7774933Z ##[command]/usr/bin/docker inspect --format "{{range .Config.Env}}{{println .}}{{end}}" c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9
2025-05-07T19:40:54.7896191Z HOME=/github/home
2025-05-07T19:40:54.7896456Z GITHUB_ACTIONS=true
2025-05-07T19:40:54.7896636Z CI=true
2025-05-07T19:40:54.7897319Z PATH=/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:40:54.7897996Z AUDITWHEEL_POLICY=manylinux_2_28
2025-05-07T19:40:54.7898232Z AUDITWHEEL_ARCH=aarch64
2025-05-07T19:40:54.7898445Z AUDITWHEEL_PLAT=manylinux_2_28_aarch64
2025-05-07T19:40:54.7898740Z LC_ALL=en_US.UTF-8
2025-05-07T19:40:54.7898914Z LANG=en_US.UTF-8
2025-05-07T19:40:54.7899088Z LANGUAGE=en_US.UTF-8
2025-05-07T19:40:54.7899777Z DEVTOOLSET_ROOTPATH=/opt/rh/gcc-toolset-14/root
2025-05-07T19:40:54.7900864Z LD_LIBRARY_PATH=/opt/rh/gcc-toolset-11/root/usr/lib64:/opt/rh/gcc-toolset-11/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64:/opt/rh/gcc-toolset-14/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64/dyninst:/opt/rh/gcc-toolset-14/root/usr/lib/dyninst
2025-05-07T19:40:54.7901977Z PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
2025-05-07T19:40:54.7902241Z SSL_CERT_FILE=/opt/_internal/certs.pem
2025-05-07T19:40:54.7917595Z ##[endgroup]
2025-05-07T19:40:54.7928803Z ##[group]Waiting for all services to be ready
2025-05-07T19:40:54.7930803Z ##[endgroup]
2025-05-07T19:40:54.8036370Z ##[group]Run set -euxo pipefail
2025-05-07T19:40:54.8037429Z [36;1mset -euxo pipefail[0m
2025-05-07T19:40:54.8037700Z [36;1mecho "::group::Cleanup debug output"[0m
2025-05-07T19:40:54.8037982Z [36;1mrm -rf "${GITHUB_WORKSPACE}"[0m
2025-05-07T19:40:54.8038249Z [36;1mmkdir -p "${GITHUB_WORKSPACE}"[0m
2025-05-07T19:40:54.8038484Z [36;1m[0m
2025-05-07T19:40:54.8038665Z [36;1mif [[ "aarch64" = "aarch64" ]]; then[0m
2025-05-07T19:40:54.8038925Z [36;1m  rm -rf "${RUNNER_TEMP}/*"[0m
2025-05-07T19:40:54.8039176Z [36;1mfi[0m
2025-05-07T19:40:54.8039382Z [36;1mecho "::endgroup::"[0m
2025-05-07T19:40:54.8039755Z shell: bash -l {0}
2025-05-07T19:40:54.8039931Z env:
2025-05-07T19:40:54.8040097Z   PYTHON_VERSION: 3.9
2025-05-07T19:40:54.8040291Z   PACKAGE_TYPE: wheel
2025-05-07T19:40:54.8040493Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:40:54.8040730Z   REF: 
2025-05-07T19:40:54.8040880Z   CU_VERSION: cu128
2025-05-07T19:40:54.8041066Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:40:54.8041321Z   ARCH: aarch64
2025-05-07T19:40:54.8041493Z   BUILD_TARGET: genai
2025-05-07T19:40:54.8041678Z ##[endgroup]
2025-05-07T19:40:54.9881154Z + echo '::group::Cleanup debug output'
2025-05-07T19:40:54.9889608Z ##[group]Cleanup debug output
2025-05-07T19:40:54.9890051Z + rm -rf /__w/FBGEMM/FBGEMM
2025-05-07T19:40:55.2961947Z + mkdir -p /__w/FBGEMM/FBGEMM
2025-05-07T19:40:55.2980968Z + [[ aarch64 = \a\a\r\c\h\6\4 ]]
2025-05-07T19:40:55.2981213Z + rm -rf '/__w/_temp/*'
2025-05-07T19:40:55.2997630Z + echo ::endgroup::
2025-05-07T19:40:55.2998264Z ##[endgroup]
2025-05-07T19:40:55.3617401Z ##[group]Run actions/checkout@11bd71901bbe5b1630ceea73d27597364c9af683
2025-05-07T19:40:55.3617804Z with:
2025-05-07T19:40:55.3617990Z   repository: pytorch/test-infra
2025-05-07T19:40:55.3618203Z   ref: main
2025-05-07T19:40:55.3618357Z   path: test-infra
2025-05-07T19:40:55.3619090Z   token: ***
2025-05-07T19:40:55.3619270Z   ssh-strict: true
2025-05-07T19:40:55.3619440Z   ssh-user: git
2025-05-07T19:40:55.3619620Z   persist-credentials: true
2025-05-07T19:40:55.3619819Z   clean: true
2025-05-07T19:40:55.3620001Z   sparse-checkout-cone-mode: true
2025-05-07T19:40:55.3620227Z   fetch-depth: 1
2025-05-07T19:40:55.3620395Z   fetch-tags: false
2025-05-07T19:40:55.3620571Z   show-progress: true
2025-05-07T19:40:55.3620744Z   lfs: false
2025-05-07T19:40:55.3620905Z   submodules: false
2025-05-07T19:40:55.3621090Z   set-safe-directory: true
2025-05-07T19:40:55.3621282Z env:
2025-05-07T19:40:55.3621438Z   PYTHON_VERSION: 3.9
2025-05-07T19:40:55.3621621Z   PACKAGE_TYPE: wheel
2025-05-07T19:40:55.3621856Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:40:55.3622059Z   REF: 
2025-05-07T19:40:55.3622205Z   CU_VERSION: cu128
2025-05-07T19:40:55.3622382Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:40:55.3622598Z   ARCH: aarch64
2025-05-07T19:40:55.3622762Z   BUILD_TARGET: genai
2025-05-07T19:40:55.3622948Z ##[endgroup]
2025-05-07T19:40:55.3675873Z ##[command]/usr/bin/docker exec  c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9 sh -c "cat /etc/*release | grep ^ID"
2025-05-07T19:40:55.6371398Z Syncing repository: pytorch/test-infra
2025-05-07T19:40:55.6372053Z ##[group]Getting Git version info
2025-05-07T19:40:55.6372391Z Working directory is '/__w/FBGEMM/FBGEMM/test-infra'
2025-05-07T19:40:55.6372859Z [command]/usr/local/bin/git version
2025-05-07T19:40:55.6373096Z git version 2.49.0
2025-05-07T19:40:55.6373887Z ##[endgroup]
2025-05-07T19:40:55.6392426Z Temporarily overriding HOME='/__w/_temp/5fde8bfc-d7db-4bc8-bef4-a25049dc6fe2' before making global git config changes
2025-05-07T19:40:55.6393179Z Adding repository directory to the temporary git global config as a safe directory
2025-05-07T19:40:55.6398194Z [command]/usr/local/bin/git config --global --add safe.directory /__w/FBGEMM/FBGEMM/test-infra
2025-05-07T19:40:55.6432482Z ##[group]Initializing the repository
2025-05-07T19:40:55.6437462Z [command]/usr/local/bin/git init /__w/FBGEMM/FBGEMM/test-infra
2025-05-07T19:40:55.6473293Z hint: Using 'master' as the name for the initial branch. This default branch name
2025-05-07T19:40:55.6473832Z hint: is subject to change. To configure the initial branch name to use in all
2025-05-07T19:40:55.6474327Z hint: of your new repositories, which will suppress this warning, call:
2025-05-07T19:40:55.6474658Z hint:
2025-05-07T19:40:55.6474910Z hint: 	git config --global init.defaultBranch <name>
2025-05-07T19:40:55.6475182Z hint:
2025-05-07T19:40:55.6475464Z hint: Names commonly chosen instead of 'master' are 'main', 'trunk' and
2025-05-07T19:40:55.6476005Z hint: 'development'. The just-created branch can be renamed via this command:
2025-05-07T19:40:55.6476354Z hint:
2025-05-07T19:40:55.6476539Z hint: 	git branch -m <name>
2025-05-07T19:40:55.6478189Z Initialized empty Git repository in /__w/FBGEMM/FBGEMM/test-infra/.git/
2025-05-07T19:40:55.6486952Z [command]/usr/local/bin/git remote add origin https://github.com/pytorch/test-infra
2025-05-07T19:40:55.6518637Z ##[endgroup]
2025-05-07T19:40:55.6524829Z ##[group]Disabling automatic garbage collection
2025-05-07T19:40:55.6525189Z [command]/usr/local/bin/git config --local gc.auto 0
2025-05-07T19:40:55.6554626Z ##[endgroup]
2025-05-07T19:40:55.6554937Z ##[group]Setting up auth
2025-05-07T19:40:55.6562205Z [command]/usr/local/bin/git config --local --name-only --get-regexp core\.sshCommand
2025-05-07T19:40:55.6595434Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local --name-only --get-regexp 'core\.sshCommand' && git config --local --unset-all 'core.sshCommand' || :"
2025-05-07T19:40:55.6948895Z [command]/usr/local/bin/git config --local --name-only --get-regexp http\.https\:\/\/github\.com\/\.extraheader
2025-05-07T19:40:55.6980589Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local --name-only --get-regexp 'http\.https\:\/\/github\.com\/\.extraheader' && git config --local --unset-all 'http.https://github.com/.extraheader' || :"
2025-05-07T19:40:55.7331410Z [command]/usr/local/bin/git config --local http.https://github.com/.extraheader AUTHORIZATION: basic ***
2025-05-07T19:40:55.7380438Z ##[endgroup]
2025-05-07T19:40:55.7380791Z ##[group]Fetching the repository
2025-05-07T19:40:55.7389686Z [command]/usr/local/bin/git -c protocol.version=2 fetch --no-tags --prune --no-recurse-submodules --depth=1 origin +refs/heads/main*:refs/remotes/origin/main* +refs/tags/main*:refs/tags/main*
2025-05-07T19:40:56.0875490Z From https://github.com/pytorch/test-infra
2025-05-07T19:40:56.0875858Z  * [new branch]      main       -> origin/main
2025-05-07T19:40:56.0907296Z ##[endgroup]
2025-05-07T19:40:56.0907685Z ##[group]Determining the checkout info
2025-05-07T19:40:56.0914434Z [command]/usr/local/bin/git branch --list --remote origin/main
2025-05-07T19:40:56.0939876Z   origin/main
2025-05-07T19:40:56.0946508Z ##[endgroup]
2025-05-07T19:40:56.0951133Z [command]/usr/local/bin/git sparse-checkout disable
2025-05-07T19:40:56.0989401Z [command]/usr/local/bin/git config --local --unset-all extensions.worktreeConfig
2025-05-07T19:40:56.1017944Z ##[group]Checking out the ref
2025-05-07T19:40:56.1022690Z [command]/usr/local/bin/git checkout --progress --force -B main refs/remotes/origin/main
2025-05-07T19:40:56.1802374Z Switched to a new branch 'main'
2025-05-07T19:40:56.1803753Z branch 'main' set up to track 'origin/main'.
2025-05-07T19:40:56.1811606Z ##[endgroup]
2025-05-07T19:40:56.1854281Z [command]/usr/local/bin/git log -1 --format=%H
2025-05-07T19:40:56.1878763Z 117fccdf5892ff9a958d2afb4b4b8b6e930d3187
2025-05-07T19:40:56.2033554Z ##[group]Run set -euxo pipefail
2025-05-07T19:40:56.2033903Z [36;1mset -euxo pipefail[0m
2025-05-07T19:40:56.2034307Z [36;1m# TODO: Get rid of Conda, we already have all versions of PyThon one needs in the docker[0m
2025-05-07T19:40:56.2034736Z [36;1m###############################################################################[0m
2025-05-07T19:40:56.2035005Z [36;1m# Install conda[0m
2025-05-07T19:40:56.2035444Z [36;1m# disable SSL_verify due to getting "Could not find a suitable TLS CA certificate bundle, invalid path"[0m
2025-05-07T19:40:56.2035966Z [36;1m# when using Python version, less than the conda latest[0m
2025-05-07T19:40:56.2036303Z [36;1m###############################################################################[0m
2025-05-07T19:40:56.2036839Z [36;1mecho 'Installing conda-forge'[0m
2025-05-07T19:40:56.2037433Z [36;1mcurl -L -o /mambaforge.sh https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Linux-aarch64.sh[0m
2025-05-07T19:40:56.2038039Z [36;1mchmod +x /mambaforge.sh[0m
2025-05-07T19:40:56.2038289Z [36;1m/mambaforge.sh -b -p /opt/conda[0m
2025-05-07T19:40:56.2038543Z [36;1mrm /mambaforge.sh[0m
2025-05-07T19:40:56.2038807Z [36;1msource /opt/conda/etc/profile.d/conda.sh[0m
2025-05-07T19:40:56.2039107Z [36;1mconda config --set ssl_verify False[0m
2025-05-07T19:40:56.2039389Z [36;1mecho "/opt/conda/bin" >> $GITHUB_PATH[0m
2025-05-07T19:40:56.2039789Z shell: bash -l {0}
2025-05-07T19:40:56.2039957Z env:
2025-05-07T19:40:56.2040109Z   PYTHON_VERSION: 3.9
2025-05-07T19:40:56.2040296Z   PACKAGE_TYPE: wheel
2025-05-07T19:40:56.2040488Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:40:56.2040686Z   REF: 
2025-05-07T19:40:56.2040825Z   CU_VERSION: cu128
2025-05-07T19:40:56.2041008Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:40:56.2041200Z   ARCH: aarch64
2025-05-07T19:40:56.2041363Z   BUILD_TARGET: genai
2025-05-07T19:40:56.2041544Z   DESIRED_PYTHON: 3.9
2025-05-07T19:40:56.2041714Z ##[endgroup]
2025-05-07T19:40:56.3729604Z + echo 'Installing conda-forge'
2025-05-07T19:40:56.3730242Z + curl -L -o /mambaforge.sh https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Linux-aarch64.sh
2025-05-07T19:40:56.3730802Z Installing conda-forge
2025-05-07T19:40:56.3772761Z   % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
2025-05-07T19:40:56.3773178Z                                  Dload  Upload   Total   Spent    Left  Speed
2025-05-07T19:40:56.3773861Z 
2025-05-07T19:40:56.4317967Z   0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
2025-05-07T19:40:56.4318305Z   0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
2025-05-07T19:40:56.4942131Z 
2025-05-07T19:40:56.4942671Z   0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
2025-05-07T19:40:56.4943002Z   0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
2025-05-07T19:40:56.7282004Z 
2025-05-07T19:40:56.7282438Z 100 76.0M  100 76.0M    0     0   217M      0 --:--:-- --:--:-- --:--:--  217M
2025-05-07T19:40:56.7305573Z + chmod +x /mambaforge.sh
2025-05-07T19:40:56.7324290Z + /mambaforge.sh -b -p /opt/conda
2025-05-07T19:40:56.7560228Z PREFIX=/opt/conda
2025-05-07T19:40:57.0498601Z Unpacking payload ...
2025-05-07T19:40:57.1915465Z Extracting ca-certificates-2025.1.31-hcefe29a_0.conda
2025-05-07T19:40:57.1994735Z Extracting ld_impl_linux-aarch64-2.43-h80caac9_4.conda
2025-05-07T19:40:57.2107598Z Extracting libgomp-14.2.0-he277a41_2.conda
2025-05-07T19:40:57.2198185Z Extracting pybind11-abi-4-hd8ed1ab_3.tar.bz2
2025-05-07T19:40:57.2252189Z Extracting python_abi-3.12-6_cp312.conda
2025-05-07T19:40:57.2272743Z Extracting tzdata-2025b-h78e105d_0.conda
2025-05-07T19:40:57.2559493Z Extracting _openmp_mutex-4.5-2_gnu.tar.bz2
2025-05-07T19:40:57.2618205Z Extracting libgcc-14.2.0-he277a41_2.conda
2025-05-07T19:40:57.2721005Z Extracting c-ares-1.34.4-h86ecc28_0.conda
2025-05-07T19:40:57.2830616Z Extracting libexpat-2.7.0-h5ad3122_0.conda
2025-05-07T19:40:57.2857356Z Extracting libffi-3.4.6-he21f813_1.conda
2025-05-07T19:40:57.2887488Z Extracting libgcc-ng-14.2.0-he9431aa_2.conda
2025-05-07T19:40:57.2942206Z Extracting libiconv-1.18-hc99b53d_1.conda
2025-05-07T19:40:57.3048247Z Extracting liblzma-5.8.1-h86ecc28_0.conda
2025-05-07T19:40:57.3081675Z Extracting libstdcxx-14.2.0-h3f4de04_2.conda
2025-05-07T19:40:57.3489083Z Extracting libzlib-1.3.1-h86ecc28_2.conda
2025-05-07T19:40:57.3515557Z Extracting ncurses-6.5-ha32ae93_3.conda
2025-05-07T19:40:57.4864940Z Extracting openssl-3.4.1-hd08dc88_0.conda
2025-05-07T19:40:57.5203184Z Extracting bzip2-1.0.8-h68df207_7.conda
2025-05-07T19:40:57.5255051Z Extracting fmt-11.1.4-h97e1849_1.conda
2025-05-07T19:40:57.5299217Z Extracting keyutils-1.6.1-h4e544f5_0.tar.bz2
2025-05-07T19:40:57.5490767Z Extracting libedit-3.1.20250104-pl5321h976ea20_0.conda
2025-05-07T19:40:57.5534022Z Extracting libev-4.33-h31becfc_2.conda
2025-05-07T19:40:57.5564668Z Extracting libnsl-2.0.1-h31becfc_0.conda
2025-05-07T19:40:57.5591136Z Extracting libsqlite-3.49.1-h5eb1b54_2.conda
2025-05-07T19:40:57.5670354Z Extracting libssh2-1.11.1-ha41c0db_0.conda
2025-05-07T19:40:57.5803302Z Extracting libstdcxx-ng-14.2.0-hf1166c9_2.conda
2025-05-07T19:40:57.5858846Z Extracting libuuid-2.38.1-hb4cce97_0.conda
2025-05-07T19:40:57.5884082Z Extracting libxcrypt-4.4.36-h31becfc_1.conda
2025-05-07T19:40:57.5918086Z Extracting lz4-c-1.10.0-h5ad3122_1.conda
2025-05-07T19:40:57.5965753Z Extracting lzo-2.10-h31becfc_1001.conda
2025-05-07T19:40:57.6016033Z Extracting readline-8.2-h8382b9d_2.conda
2025-05-07T19:40:57.6068984Z Extracting reproc-14.2.4.post0-h31becfc_1.conda
2025-05-07T19:40:57.6102397Z Extracting simdjson-3.12.3-h17cf362_0.conda
2025-05-07T19:40:57.6170269Z Extracting tk-8.6.13-h194ca79_0.conda
2025-05-07T19:40:57.6707743Z Extracting zstd-1.5.7-hbcf94c1_2.conda
2025-05-07T19:40:57.6777990Z Extracting cpp-expected-1.1.0-h4c384f3_0.conda
2025-05-07T19:40:57.6802408Z Extracting icu-75.1-hf9b3779_0.conda
2025-05-07T19:40:57.7930582Z Extracting krb5-1.21.3-h50a48e9_0.conda
2025-05-07T19:40:57.8173178Z Extracting libnghttp2-1.64.0-hc8609a4_0.conda
2025-05-07T19:40:57.8256525Z Extracting libsolv-0.7.30-h62756fc_0.conda
2025-05-07T19:40:57.8341568Z Extracting nlohmann_json-3.11.3-h0a1ffab_1.conda
2025-05-07T19:40:57.8398501Z Extracting python-3.12.9-h1683364_1_cpython.conda
2025-05-07T19:40:58.0731357Z Extracting reproc-cpp-14.2.4.post0-h2f0025b_1.conda
2025-05-07T19:40:58.0767362Z Extracting spdlog-1.15.2-h7344f28_0.conda
2025-05-07T19:40:58.0846996Z Extracting yaml-cpp-0.8.0-h2f0025b_0.conda
2025-05-07T19:40:58.0904270Z Extracting libcurl-8.13.0-h6702fde_0.conda
2025-05-07T19:40:58.0967872Z Extracting libxml2-2.13.7-he060846_1.conda
2025-05-07T19:40:58.1071230Z Extracting menuinst-2.2.0-py312h996f985_0.conda
2025-05-07T19:40:58.1137347Z Extracting archspec-0.2.5-pyhd8ed1ab_0.conda
2025-05-07T19:40:58.1197234Z Extracting boltons-24.0.0-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.1280611Z Extracting brotli-python-1.1.0-py312h6f74592_2.conda
2025-05-07T19:40:58.1331466Z Extracting certifi-2025.1.31-pyhd8ed1ab_0.conda
2025-05-07T19:40:58.1367803Z Extracting charset-normalizer-3.4.1-pyhd8ed1ab_0.conda
2025-05-07T19:40:58.1399573Z Extracting colorama-0.4.6-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.1428540Z Extracting distro-1.9.0-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.1575143Z Extracting frozendict-2.4.6-py312hb2c0f52_0.conda
2025-05-07T19:40:58.1605726Z Extracting hpack-4.1.0-pyhd8ed1ab_0.conda
2025-05-07T19:40:58.1634547Z Extracting hyperframe-6.1.0-pyhd8ed1ab_0.conda
2025-05-07T19:40:58.1659347Z Extracting idna-3.10-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.1691429Z Extracting jsonpointer-3.0.0-py312h996f985_1.conda
2025-05-07T19:40:58.1717182Z Extracting libarchive-3.7.7-h6223a6c_3.conda
2025-05-07T19:40:58.1872258Z Extracting packaging-24.2-pyhd8ed1ab_2.conda
2025-05-07T19:40:58.1906273Z Extracting platformdirs-4.3.7-pyh29332c3_0.conda
2025-05-07T19:40:58.1931486Z Extracting pluggy-1.5.0-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.1965926Z Extracting pycosat-0.6.6-py312hb2c0f52_2.conda
2025-05-07T19:40:58.2003473Z Extracting pycparser-2.22-pyh29332c3_1.conda
2025-05-07T19:40:58.2095820Z Extracting pysocks-1.7.1-pyha55dd90_7.conda
2025-05-07T19:40:58.2119456Z Extracting ruamel.yaml.clib-0.2.8-py312hb2c0f52_1.conda
2025-05-07T19:40:58.2155925Z Extracting setuptools-78.1.0-pyhff2d567_0.conda
2025-05-07T19:40:58.2522594Z Extracting truststore-0.10.1-pyh29332c3_0.conda
2025-05-07T19:40:58.2547229Z Extracting wheel-0.45.1-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.2587683Z Extracting cffi-1.17.1-py312hac81daf_0.conda
2025-05-07T19:40:58.2655646Z Extracting h2-4.2.0-pyhd8ed1ab_0.conda
2025-05-07T19:40:58.2686968Z Extracting jsonpatch-1.33-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.2713037Z Extracting libmamba-2.0.8-hc3f49f9_2.conda
2025-05-07T19:40:58.2954121Z Extracting pip-25.0.1-pyh8b19718_0.conda
2025-05-07T19:40:58.3326316Z Extracting ruamel.yaml-0.18.10-py312hb2c0f52_0.conda
2025-05-07T19:40:58.3407416Z Extracting tqdm-4.67.1-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.3459611Z Extracting libmambapy-2.0.8-py312h6af631f_2.conda
2025-05-07T19:40:58.3535704Z Extracting mamba-2.0.8-h98989f4_2.conda
2025-05-07T19:40:58.3602527Z Extracting zstandard-0.23.0-py312hb2c0f52_1.conda
2025-05-07T19:40:58.3682082Z Extracting conda-package-streaming-0.11.0-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.3710099Z Extracting urllib3-2.3.0-pyhd8ed1ab_0.conda
2025-05-07T19:40:58.3756171Z Extracting requests-2.32.3-pyhd8ed1ab_1.conda
2025-05-07T19:40:58.3790295Z Extracting conda-package-handling-2.4.0-pyh7900ff3_2.conda
2025-05-07T19:40:58.3830565Z Extracting conda-25.3.0-py312h996f985_0.conda
2025-05-07T19:40:58.4206450Z Extracting conda-libmamba-solver-25.3.0-pyhd8ed1ab_0.conda
2025-05-07T19:40:58.4307329Z 
2025-05-07T19:40:58.4307479Z Installing base environment...
2025-05-07T19:40:58.4307642Z 
2025-05-07T19:40:58.4401426Z Transaction
2025-05-07T19:40:58.4401538Z 
2025-05-07T19:40:58.4401615Z   Prefix: /opt/conda
2025-05-07T19:40:58.4401738Z 
2025-05-07T19:40:58.4401806Z   Updating specs:
2025-05-07T19:40:58.4401921Z 
2025-05-07T19:40:58.4402042Z    - ca-certificates==2025.1.31=hcefe29a_0
2025-05-07T19:40:58.4402320Z    - ld_impl_linux-aarch64==2.43=h80caac9_4
2025-05-07T19:40:58.4402573Z    - libgomp==14.2.0=he277a41_2
2025-05-07T19:40:58.4402794Z    - pybind11-abi==4=hd8ed1ab_3
2025-05-07T19:40:58.4403016Z    - python_abi==3.12=6_cp312
2025-05-07T19:40:58.4403227Z    - tzdata==2025b=h78e105d_0
2025-05-07T19:40:58.4403433Z    - _openmp_mutex==4.5=2_gnu
2025-05-07T19:40:58.4404053Z    - libgcc==14.2.0=he277a41_2
2025-05-07T19:40:58.4404263Z    - c-ares==1.34.4=h86ecc28_0
2025-05-07T19:40:58.4404468Z    - libexpat==2.7.0=h5ad3122_0
2025-05-07T19:40:58.4404681Z    - libffi==3.4.6=he21f813_1
2025-05-07T19:40:58.4404890Z    - libgcc-ng==14.2.0=he9431aa_2
2025-05-07T19:40:58.4405115Z    - libiconv==1.18=hc99b53d_1
2025-05-07T19:40:58.4405318Z    - liblzma==5.8.1=h86ecc28_0
2025-05-07T19:40:58.4405528Z    - libstdcxx==14.2.0=h3f4de04_2
2025-05-07T19:40:58.4405748Z    - libzlib==1.3.1=h86ecc28_2
2025-05-07T19:40:58.4405961Z    - ncurses==6.5=ha32ae93_3
2025-05-07T19:40:58.4406170Z    - openssl==3.4.1=hd08dc88_0
2025-05-07T19:40:58.4406372Z    - bzip2==1.0.8=h68df207_7
2025-05-07T19:40:58.4406571Z    - fmt==11.1.4=h97e1849_1
2025-05-07T19:40:58.4406771Z    - keyutils==1.6.1=h4e544f5_0
2025-05-07T19:40:58.4406992Z    - libedit==3.1.20250104=pl5321h976ea20_0
2025-05-07T19:40:58.4407227Z    - libev==4.33=h31becfc_2
2025-05-07T19:40:58.4407427Z    - libnsl==2.0.1=h31becfc_0
2025-05-07T19:40:58.4407644Z    - libsqlite==3.49.1=h5eb1b54_2
2025-05-07T19:40:58.4407865Z    - libssh2==1.11.1=ha41c0db_0
2025-05-07T19:40:58.4408083Z    - libstdcxx-ng==14.2.0=hf1166c9_2
2025-05-07T19:40:58.4408311Z    - libuuid==2.38.1=hb4cce97_0
2025-05-07T19:40:58.4408530Z    - libxcrypt==4.4.36=h31becfc_1
2025-05-07T19:40:58.4408745Z    - lz4-c==1.10.0=h5ad3122_1
2025-05-07T19:40:58.4408950Z    - lzo==2.10=h31becfc_1001
2025-05-07T19:40:58.4409172Z    - readline==8.2=h8382b9d_2
2025-05-07T19:40:58.4409385Z    - reproc==14.2.4.0post0=h31becfc_1
2025-05-07T19:40:58.4409852Z    - simdjson==3.12.3=h17cf362_0
2025-05-07T19:40:58.4410083Z    - tk==8.6.13=h194ca79_0
2025-05-07T19:40:58.4410279Z    - zstd==1.5.7=hbcf94c1_2
2025-05-07T19:40:58.4410490Z    - cpp-expected==1.1.0=h4c384f3_0
2025-05-07T19:40:58.4410719Z    - icu==75.1=hf9b3779_0
2025-05-07T19:40:58.4410910Z    - krb5==1.21.3=h50a48e9_0
2025-05-07T19:40:58.4411120Z    - libnghttp2==1.64.0=hc8609a4_0
2025-05-07T19:40:58.4411347Z    - libsolv==0.7.30=h62756fc_0
2025-05-07T19:40:58.4411577Z    - nlohmann_json==3.11.3=h0a1ffab_1
2025-05-07T19:40:58.4411815Z    - python==3.12.9=h1683364_1_cpython
2025-05-07T19:40:58.4412060Z    - reproc-cpp==14.2.4.0post0=h2f0025b_1
2025-05-07T19:40:58.4412307Z    - spdlog==1.15.2=h7344f28_0
2025-05-07T19:40:58.4412520Z    - yaml-cpp==0.8.0=h2f0025b_0
2025-05-07T19:40:58.4412727Z    - libcurl==8.13.0=h6702fde_0
2025-05-07T19:40:58.4412937Z    - libxml2==2.13.7=he060846_1
2025-05-07T19:40:58.4413152Z    - menuinst==2.2.0=py312h996f985_0
2025-05-07T19:40:58.4413619Z    - archspec==0.2.5=pyhd8ed1ab_0
2025-05-07T19:40:58.4413934Z    - boltons==24.0.0=pyhd8ed1ab_1
2025-05-07T19:40:58.4414168Z    - brotli-python==1.1.0=py312h6f74592_2
2025-05-07T19:40:58.4414421Z    - certifi==2025.1.31=pyhd8ed1ab_0
2025-05-07T19:40:58.4414669Z    - charset-normalizer==3.4.1=pyhd8ed1ab_0
2025-05-07T19:40:58.4414923Z    - colorama==0.4.6=pyhd8ed1ab_1
2025-05-07T19:40:58.4415149Z    - distro==1.9.0=pyhd8ed1ab_1
2025-05-07T19:40:58.4415365Z    - frozendict==2.4.6=py312hb2c0f52_0
2025-05-07T19:40:58.4415614Z    - hpack==4.1.0=pyhd8ed1ab_0
2025-05-07T19:40:58.4415829Z    - hyperframe==6.1.0=pyhd8ed1ab_0
2025-05-07T19:40:58.4416060Z    - idna==3.10=pyhd8ed1ab_1
2025-05-07T19:40:58.4416275Z    - jsonpointer==3.0.0=py312h996f985_1
2025-05-07T19:40:58.4416520Z    - libarchive==3.7.7=h6223a6c_3
2025-05-07T19:40:58.4416749Z    - packaging==24.2=pyhd8ed1ab_2
2025-05-07T19:40:58.4416982Z    - platformdirs==4.3.7=pyh29332c3_0
2025-05-07T19:40:58.4417329Z    - pluggy==1.5.0=pyhd8ed1ab_1
2025-05-07T19:40:58.4417557Z    - pycosat==0.6.6=py312hb2c0f52_2
2025-05-07T19:40:58.4417791Z    - pycparser==2.22=pyh29332c3_1
2025-05-07T19:40:58.4418015Z    - pysocks==1.7.1=pyha55dd90_7
2025-05-07T19:40:58.4418253Z    - ruamel.yaml.clib==0.2.8=py312hb2c0f52_1
2025-05-07T19:40:58.4418509Z    - setuptools==78.1.0=pyhff2d567_0
2025-05-07T19:40:58.4418744Z    - truststore==0.10.1=pyh29332c3_0
2025-05-07T19:40:58.4418971Z    - wheel==0.45.1=pyhd8ed1ab_1
2025-05-07T19:40:58.4419403Z    - cffi==1.17.1=py312hac81daf_0
2025-05-07T19:40:58.4419624Z    - h2==4.2.0=pyhd8ed1ab_0
2025-05-07T19:40:58.4419829Z    - jsonpatch==1.33=pyhd8ed1ab_1
2025-05-07T19:40:58.4420053Z    - libmamba==2.0.8=hc3f49f9_2
2025-05-07T19:40:58.4420262Z    - pip==25.0.1=pyh8b19718_0
2025-05-07T19:40:58.4420486Z    - ruamel.yaml==0.18.10=py312hb2c0f52_0
2025-05-07T19:40:58.4420726Z    - tqdm==4.67.1=pyhd8ed1ab_1
2025-05-07T19:40:58.4420945Z    - libmambapy==2.0.8=py312h6af631f_2
2025-05-07T19:40:58.4421177Z    - mamba==2.0.8=h98989f4_2
2025-05-07T19:40:58.4421397Z    - zstandard==0.23.0=py312hb2c0f52_1
2025-05-07T19:40:58.4421672Z    - conda-package-streaming==0.11.0=pyhd8ed1ab_1
2025-05-07T19:40:58.4421952Z    - urllib3==2.3.0=pyhd8ed1ab_0
2025-05-07T19:40:58.4422175Z    - requests==2.32.3=pyhd8ed1ab_1
2025-05-07T19:40:58.4422430Z    - conda-package-handling==2.4.0=pyh7900ff3_2
2025-05-07T19:40:58.4422698Z    - conda==25.3.0=py312h996f985_0
2025-05-07T19:40:58.4422945Z    - conda-libmamba-solver==25.3.0=pyhd8ed1ab_0
2025-05-07T19:40:58.4423152Z 
2025-05-07T19:40:58.4423156Z 
2025-05-07T19:40:58.4423366Z   Package                         Version  Build               Channel         Size
2025-05-07T19:40:58.4424234Z ─────────────────────────────────────────────────────────────────────────────────────
2025-05-07T19:40:58.4424549Z   Install:
2025-05-07T19:40:58.4424954Z ─────────────────────────────────────────────────────────────────────────────────────
2025-05-07T19:40:58.4425195Z 
2025-05-07T19:40:58.4425344Z   + _openmp_mutex                     4.5  2_gnu               conda-forge         
2025-05-07T19:40:58.4425925Z   + archspec                        0.2.5  pyhd8ed1ab_0        conda-forge         
2025-05-07T19:40:58.4426316Z   + boltons                        24.0.0  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4426705Z   + brotli-python                   1.1.0  py312h6f74592_2     conda-forge         
2025-05-07T19:40:58.4427083Z   + bzip2                           1.0.8  h68df207_7          conda-forge         
2025-05-07T19:40:58.4427445Z   + c-ares                         1.34.4  h86ecc28_0          conda-forge         
2025-05-07T19:40:58.4427840Z   + ca-certificates             2025.1.31  hcefe29a_0          conda-forge         
2025-05-07T19:40:58.4428247Z   + certifi                     2025.1.31  pyhd8ed1ab_0        conda-forge         
2025-05-07T19:40:58.4428606Z   + cffi                           1.17.1  py312hac81daf_0     conda-forge         
2025-05-07T19:40:58.4429008Z   + charset-normalizer              3.4.1  pyhd8ed1ab_0        conda-forge         
2025-05-07T19:40:58.4429419Z   + colorama                        0.4.6  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4429784Z   + conda                          25.3.0  py312h996f985_0     conda-forge         
2025-05-07T19:40:58.4430190Z   + conda-libmamba-solver          25.3.0  pyhd8ed1ab_0        conda-forge         
2025-05-07T19:40:58.4430661Z   + conda-package-handling          2.4.0  pyh7900ff3_2        conda-forge         
2025-05-07T19:40:58.4431146Z   + conda-package-streaming        0.11.0  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4431581Z   + cpp-expected                    1.1.0  h4c384f3_0          conda-forge         
2025-05-07T19:40:58.4432069Z   + distro                          1.9.0  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4432414Z   + fmt                            11.1.4  h97e1849_1          conda-forge         
2025-05-07T19:40:58.4432773Z   + frozendict                      2.4.6  py312hb2c0f52_0     conda-forge         
2025-05-07T19:40:58.4433136Z   + h2                              4.2.0  pyhd8ed1ab_0        conda-forge         
2025-05-07T19:40:58.4433475Z   + hpack                           4.1.0  pyhd8ed1ab_0        conda-forge         
2025-05-07T19:40:58.4433849Z   + hyperframe                      6.1.0  pyhd8ed1ab_0        conda-forge         
2025-05-07T19:40:58.4434203Z   + icu                              75.1  hf9b3779_0          conda-forge         
2025-05-07T19:40:58.4434695Z   + idna                             3.10  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4435055Z   + jsonpatch                        1.33  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4435442Z   + jsonpointer                     3.0.0  py312h996f985_1     conda-forge         
2025-05-07T19:40:58.4435820Z   + keyutils                        1.6.1  h4e544f5_0          conda-forge         
2025-05-07T19:40:58.4436166Z   + krb5                           1.21.3  h50a48e9_0          conda-forge         
2025-05-07T19:40:58.4436743Z   + ld_impl_linux-aarch64            2.43  h80caac9_4          conda-forge         
2025-05-07T19:40:58.4437160Z   + libarchive                      3.7.7  h6223a6c_3          conda-forge         
2025-05-07T19:40:58.4437535Z   + libcurl                        8.13.0  h6702fde_0          conda-forge         
2025-05-07T19:40:58.4437912Z   + libedit                  3.1.20250104  pl5321h976ea20_0    conda-forge         
2025-05-07T19:40:58.4438279Z   + libev                            4.33  h31becfc_2          conda-forge         
2025-05-07T19:40:58.4438637Z   + libexpat                        2.7.0  h5ad3122_0          conda-forge         
2025-05-07T19:40:58.4438997Z   + libffi                          3.4.6  he21f813_1          conda-forge         
2025-05-07T19:40:58.4439350Z   + libgcc                         14.2.0  he277a41_2          conda-forge         
2025-05-07T19:40:58.4439708Z   + libgcc-ng                      14.2.0  he9431aa_2          conda-forge         
2025-05-07T19:40:58.4440953Z   + libgomp                        14.2.0  he277a41_2          conda-forge         
2025-05-07T19:40:58.4441371Z   + libiconv                         1.18  hc99b53d_1          conda-forge         
2025-05-07T19:40:58.4441733Z   + liblzma                         5.8.1  h86ecc28_0          conda-forge         
2025-05-07T19:40:58.4442097Z   + libmamba                        2.0.8  hc3f49f9_2          conda-forge         
2025-05-07T19:40:58.4442479Z   + libmambapy                      2.0.8  py312h6af631f_2     conda-forge         
2025-05-07T19:40:58.4442868Z   + libnghttp2                     1.64.0  hc8609a4_0          conda-forge         
2025-05-07T19:40:58.4443238Z   + libnsl                          2.0.1  h31becfc_0          conda-forge         
2025-05-07T19:40:58.4443589Z   + libsolv                        0.7.30  h62756fc_0          conda-forge         
2025-05-07T19:40:58.4443958Z   + libsqlite                      3.49.1  h5eb1b54_2          conda-forge         
2025-05-07T19:40:58.4444328Z   + libssh2                        1.11.1  ha41c0db_0          conda-forge         
2025-05-07T19:40:58.4444697Z   + libstdcxx                      14.2.0  h3f4de04_2          conda-forge         
2025-05-07T19:40:58.4445076Z   + libstdcxx-ng                   14.2.0  hf1166c9_2          conda-forge         
2025-05-07T19:40:58.4445442Z   + libuuid                        2.38.1  hb4cce97_0          conda-forge         
2025-05-07T19:40:58.4445820Z   + libxcrypt                      4.4.36  h31becfc_1          conda-forge         
2025-05-07T19:40:58.4446187Z   + libxml2                        2.13.7  he060846_1          conda-forge         
2025-05-07T19:40:58.4446542Z   + libzlib                         1.3.1  h86ecc28_2          conda-forge         
2025-05-07T19:40:58.4446886Z   + lz4-c                          1.10.0  h5ad3122_1          conda-forge         
2025-05-07T19:40:58.4447220Z   + lzo                              2.10  h31becfc_1001       conda-forge         
2025-05-07T19:40:58.4447558Z   + mamba                           2.0.8  h98989f4_2          conda-forge         
2025-05-07T19:40:58.4447911Z   + menuinst                        2.2.0  py312h996f985_0     conda-forge         
2025-05-07T19:40:58.4448276Z   + ncurses                           6.5  ha32ae93_3          conda-forge         
2025-05-07T19:40:58.4448646Z   + nlohmann_json                  3.11.3  h0a1ffab_1          conda-forge         
2025-05-07T19:40:58.4449396Z   + openssl                         3.4.1  hd08dc88_0          conda-forge         
2025-05-07T19:40:58.4449780Z   + packaging                        24.2  pyhd8ed1ab_2        conda-forge         
2025-05-07T19:40:58.4450138Z   + pip                            25.0.1  pyh8b19718_0        conda-forge         
2025-05-07T19:40:58.4450509Z   + platformdirs                    4.3.7  pyh29332c3_0        conda-forge         
2025-05-07T19:40:58.4450886Z   + pluggy                          1.5.0  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4451269Z   + pybind11-abi                        4  hd8ed1ab_3          conda-forge         
2025-05-07T19:40:58.4451641Z   + pycosat                         0.6.6  py312hb2c0f52_2     conda-forge         
2025-05-07T19:40:58.4452014Z   + pycparser                        2.22  pyh29332c3_1        conda-forge         
2025-05-07T19:40:58.4452383Z   + pysocks                         1.7.1  pyha55dd90_7        conda-forge         
2025-05-07T19:40:58.4452743Z   + python                         3.12.9  h1683364_1_cpython  conda-forge         
2025-05-07T19:40:58.4453119Z   + python_abi                       3.12  6_cp312             conda-forge         
2025-05-07T19:40:58.4453479Z   + readline                          8.2  h8382b9d_2          conda-forge         
2025-05-07T19:40:58.4453852Z   + reproc                   14.2.4.post0  h31becfc_1          conda-forge         
2025-05-07T19:40:58.4454246Z   + reproc-cpp               14.2.4.post0  h2f0025b_1          conda-forge         
2025-05-07T19:40:58.4455003Z   + requests                       2.32.3  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4455427Z   + ruamel.yaml                   0.18.10  py312hb2c0f52_0     conda-forge         
2025-05-07T19:40:58.4455829Z   + ruamel.yaml.clib                0.2.8  py312hb2c0f52_1     conda-forge         
2025-05-07T19:40:58.4456230Z   + setuptools                     78.1.0  pyhff2d567_0        conda-forge         
2025-05-07T19:40:58.4456603Z   + simdjson                       3.12.3  h17cf362_0          conda-forge         
2025-05-07T19:40:58.4456970Z   + spdlog                         1.15.2  h7344f28_0          conda-forge         
2025-05-07T19:40:58.4457307Z   + tk                             8.6.13  h194ca79_0          conda-forge         
2025-05-07T19:40:58.4457639Z   + tqdm                           4.67.1  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4458005Z   + truststore                     0.10.1  pyh29332c3_0        conda-forge         
2025-05-07T19:40:58.4458375Z   + tzdata                          2025b  h78e105d_0          conda-forge         
2025-05-07T19:40:58.4458741Z   + urllib3                         2.3.0  pyhd8ed1ab_0        conda-forge         
2025-05-07T19:40:58.4459103Z   + wheel                          0.45.1  pyhd8ed1ab_1        conda-forge         
2025-05-07T19:40:58.4459480Z   + yaml-cpp                        0.8.0  h2f0025b_0          conda-forge         
2025-05-07T19:40:58.4459854Z   + zstandard                      0.23.0  py312hb2c0f52_1     conda-forge         
2025-05-07T19:40:58.4460220Z   + zstd                            1.5.7  hbcf94c1_2          conda-forge         
2025-05-07T19:40:58.4460441Z 
2025-05-07T19:40:58.4460500Z   Summary:
2025-05-07T19:40:58.4460595Z 
2025-05-07T19:40:58.4460663Z   Install: 88 packages
2025-05-07T19:40:58.4460787Z 
2025-05-07T19:40:58.4460859Z   Total download: 0 B
2025-05-07T19:40:58.4460978Z 
2025-05-07T19:40:58.4461513Z ─────────────────────────────────────────────────────────────────────────────────────
2025-05-07T19:40:58.4461842Z 
2025-05-07T19:40:58.4461860Z 
2025-05-07T19:40:58.4461864Z 
2025-05-07T19:40:58.4461934Z Transaction starting
2025-05-07T19:40:58.4462180Z Linking ca-certificates-2025.1.31-hcefe29a_0
2025-05-07T19:40:58.4462483Z Linking ld_impl_linux-aarch64-2.43-h80caac9_4
2025-05-07T19:40:58.4675450Z Linking libgomp-14.2.0-he277a41_2
2025-05-07T19:40:58.4679904Z Linking pybind11-abi-4-hd8ed1ab_3
2025-05-07T19:40:58.4681713Z Linking python_abi-3.12-6_cp312
2025-05-07T19:40:58.4683428Z Linking tzdata-2025b-h78e105d_0
2025-05-07T19:40:58.4904292Z Linking _openmp_mutex-4.5-2_gnu
2025-05-07T19:40:58.4907685Z Linking libgcc-14.2.0-he277a41_2
2025-05-07T19:40:58.4915474Z Linking c-ares-1.34.4-h86ecc28_0
2025-05-07T19:40:58.4981700Z Linking libexpat-2.7.0-h5ad3122_0
2025-05-07T19:40:58.4985390Z Linking libffi-3.4.6-he21f813_1
2025-05-07T19:40:58.4992637Z Linking libgcc-ng-14.2.0-he9431aa_2
2025-05-07T19:40:58.4994341Z Linking libiconv-1.18-hc99b53d_1
2025-05-07T19:40:58.5034827Z Linking liblzma-5.8.1-h86ecc28_0
2025-05-07T19:40:58.5037950Z Linking libstdcxx-14.2.0-h3f4de04_2
2025-05-07T19:40:58.5042167Z Linking libzlib-1.3.1-h86ecc28_2
2025-05-07T19:40:58.5044757Z Linking ncurses-6.5-ha32ae93_3
2025-05-07T19:40:59.7565789Z Linking openssl-3.4.1-hd08dc88_0
2025-05-07T19:40:59.7693596Z Linking bzip2-1.0.8-h68df207_7
2025-05-07T19:40:59.7706701Z Linking fmt-11.1.4-h97e1849_1
2025-05-07T19:40:59.7718522Z Linking keyutils-1.6.1-h4e544f5_0
2025-05-07T19:40:59.7749965Z Linking libedit-3.1.20250104-pl5321h976ea20_0
2025-05-07T19:40:59.7784448Z Linking libev-4.33-h31becfc_2
2025-05-07T19:40:59.7789378Z Linking libnsl-2.0.1-h31becfc_0
2025-05-07T19:40:59.7796939Z Linking libsqlite-3.49.1-h5eb1b54_2
2025-05-07T19:40:59.7802002Z Linking libssh2-1.11.1-ha41c0db_0
2025-05-07T19:40:59.7883087Z Linking libstdcxx-ng-14.2.0-hf1166c9_2
2025-05-07T19:40:59.7885459Z Linking libuuid-2.38.1-hb4cce97_0
2025-05-07T19:40:59.7891034Z Linking libxcrypt-4.4.36-h31becfc_1
2025-05-07T19:40:59.7900209Z Linking lz4-c-1.10.0-h5ad3122_1
2025-05-07T19:40:59.7911230Z Linking lzo-2.10-h31becfc_1001
2025-05-07T19:40:59.7925151Z Linking readline-8.2-h8382b9d_2
2025-05-07T19:40:59.7938374Z Linking reproc-14.2.4.post0-h31becfc_1
2025-05-07T19:40:59.7946273Z Linking simdjson-3.12.3-h17cf362_0
2025-05-07T19:40:59.7952629Z Linking tk-8.6.13-h194ca79_0
2025-05-07T19:40:59.8158999Z Linking zstd-1.5.7-hbcf94c1_2
2025-05-07T19:40:59.8172843Z Linking cpp-expected-1.1.0-h4c384f3_0
2025-05-07T19:40:59.8177170Z Linking icu-75.1-hf9b3779_0
2025-05-07T19:40:59.8295723Z Linking krb5-1.21.3-h50a48e9_0
2025-05-07T19:40:59.8406237Z Linking libnghttp2-1.64.0-hc8609a4_0
2025-05-07T19:40:59.8422192Z Linking libsolv-0.7.30-h62756fc_0
2025-05-07T19:40:59.8446691Z Linking nlohmann_json-3.11.3-h0a1ffab_1
2025-05-07T19:40:59.8471133Z Linking python-3.12.9-h1683364_1_cpython
2025-05-07T19:40:59.9478685Z Linking reproc-cpp-14.2.4.post0-h2f0025b_1
2025-05-07T19:40:59.9497746Z Linking spdlog-1.15.2-h7344f28_0
2025-05-07T19:40:59.9542937Z Linking yaml-cpp-0.8.0-h2f0025b_0
2025-05-07T19:40:59.9565596Z Linking libcurl-8.13.0-h6702fde_0
2025-05-07T19:40:59.9584338Z Linking libxml2-2.13.7-he060846_1
2025-05-07T19:40:59.9626481Z Linking menuinst-2.2.0-py312h996f985_0
2025-05-07T19:40:59.9660943Z Linking archspec-0.2.5-pyhd8ed1ab_0
2025-05-07T19:40:59.9733501Z Linking boltons-24.0.0-pyhd8ed1ab_1
2025-05-07T19:40:59.9755071Z Linking brotli-python-1.1.0-py312h6f74592_2
2025-05-07T19:40:59.9763224Z Linking certifi-2025.1.31-pyhd8ed1ab_0
2025-05-07T19:40:59.9771781Z Linking charset-normalizer-3.4.1-pyhd8ed1ab_0
2025-05-07T19:40:59.9785757Z Linking colorama-0.4.6-pyhd8ed1ab_1
2025-05-07T19:40:59.9798394Z Linking distro-1.9.0-pyhd8ed1ab_1
2025-05-07T19:40:59.9807273Z Linking frozendict-2.4.6-py312hb2c0f52_0
2025-05-07T19:40:59.9819617Z Linking hpack-4.1.0-pyhd8ed1ab_0
2025-05-07T19:40:59.9829695Z Linking hyperframe-6.1.0-pyhd8ed1ab_0
2025-05-07T19:40:59.9839188Z Linking idna-3.10-pyhd8ed1ab_1
2025-05-07T19:40:59.9848764Z Linking jsonpointer-3.0.0-py312h996f985_1
2025-05-07T19:40:59.9856740Z Linking libarchive-3.7.7-h6223a6c_3
2025-05-07T19:40:59.9881712Z Linking packaging-24.2-pyhd8ed1ab_2
2025-05-07T19:40:59.9896514Z Linking platformdirs-4.3.7-pyh29332c3_0
2025-05-07T19:40:59.9906717Z Linking pluggy-1.5.0-pyhd8ed1ab_1
2025-05-07T19:40:59.9916959Z Linking pycosat-0.6.6-py312hb2c0f52_2
2025-05-07T19:40:59.9924196Z Linking pycparser-2.22-pyh29332c3_1
2025-05-07T19:41:00.0005372Z Linking pysocks-1.7.1-pyha55dd90_7
2025-05-07T19:41:00.0013073Z Linking ruamel.yaml.clib-0.2.8-py312hb2c0f52_1
2025-05-07T19:41:00.0019319Z Linking setuptools-78.1.0-pyhff2d567_0
2025-05-07T19:41:00.0293561Z Linking truststore-0.10.1-pyh29332c3_0
2025-05-07T19:41:00.0305652Z Linking wheel-0.45.1-pyhd8ed1ab_1
2025-05-07T19:41:00.0328030Z Linking cffi-1.17.1-py312hac81daf_0
2025-05-07T19:41:00.0352633Z Linking h2-4.2.0-pyhd8ed1ab_0
2025-05-07T19:41:00.0364450Z Linking jsonpatch-1.33-pyhd8ed1ab_1
2025-05-07T19:41:00.0373437Z Linking libmamba-2.0.8-hc3f49f9_2
2025-05-07T19:41:00.0428828Z Linking pip-25.0.1-pyh8b19718_0
2025-05-07T19:41:00.0665719Z Linking ruamel.yaml-0.18.10-py312hb2c0f52_0
2025-05-07T19:41:00.0702022Z Linking tqdm-4.67.1-pyhd8ed1ab_1
2025-05-07T19:41:00.0724791Z Linking libmambapy-2.0.8-py312h6af631f_2
2025-05-07T19:41:00.0738154Z Linking mamba-2.0.8-h98989f4_2
2025-05-07T19:41:00.0743503Z Linking zstandard-0.23.0-py312hb2c0f52_1
2025-05-07T19:41:00.0752562Z Linking conda-package-streaming-0.11.0-pyhd8ed1ab_1
2025-05-07T19:41:00.0763419Z Linking urllib3-2.3.0-pyhd8ed1ab_0
2025-05-07T19:41:00.0792932Z Linking requests-2.32.3-pyhd8ed1ab_1
2025-05-07T19:41:00.0808403Z Linking conda-package-handling-2.4.0-pyh7900ff3_2
2025-05-07T19:41:00.0821334Z Linking conda-25.3.0-py312h996f985_0
2025-05-07T19:41:00.1049949Z Linking conda-libmamba-solver-25.3.0-pyhd8ed1ab_0
2025-05-07T19:41:00.2901060Z 
2025-05-07T19:41:00.2901373Z Transaction finished
2025-05-07T19:41:00.2901536Z 
2025-05-07T19:41:00.3513235Z installation finished.
2025-05-07T19:41:00.3519573Z + rm /mambaforge.sh
2025-05-07T19:41:00.3638518Z + source /opt/conda/etc/profile.d/conda.sh
2025-05-07T19:41:00.3639187Z ++ export CONDA_EXE=/opt/conda/bin/conda
2025-05-07T19:41:00.3639474Z ++ CONDA_EXE=/opt/conda/bin/conda
2025-05-07T19:41:00.3639691Z ++ export _CE_M=
2025-05-07T19:41:00.3639866Z ++ _CE_M=
2025-05-07T19:41:00.3640024Z ++ export _CE_CONDA=
2025-05-07T19:41:00.3640195Z ++ _CE_CONDA=
2025-05-07T19:41:00.3640396Z ++ export CONDA_PYTHON_EXE=/opt/conda/bin/python
2025-05-07T19:41:00.3640683Z ++ CONDA_PYTHON_EXE=/opt/conda/bin/python
2025-05-07T19:41:00.3641162Z ++ '[' -z '' ']'
2025-05-07T19:41:00.3641364Z ++ export CONDA_SHLVL=0
2025-05-07T19:41:00.3641549Z ++ CONDA_SHLVL=0
2025-05-07T19:41:00.3641711Z ++ '[' -n '' ']'
2025-05-07T19:41:00.3647593Z ++++ dirname /opt/conda/bin/conda
2025-05-07T19:41:00.3667805Z +++ dirname /opt/conda/bin
2025-05-07T19:41:00.3687984Z ++ PATH=/opt/conda/condabin:/usr/share/Modules/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:41:00.3688834Z ++ export PATH
2025-05-07T19:41:00.3688997Z ++ '[' -z '' ']'
2025-05-07T19:41:00.3689159Z ++ PS1=
2025-05-07T19:41:00.3689331Z + conda config --set ssl_verify False
2025-05-07T19:41:00.3689563Z + local cmd=config
2025-05-07T19:41:00.3689733Z + case "$cmd" in
2025-05-07T19:41:00.3689928Z + __conda_exe config --set ssl_verify False
2025-05-07T19:41:00.3691446Z + '[' -n '' ']'
2025-05-07T19:41:00.3691668Z + /opt/conda/bin/conda config --set ssl_verify False
2025-05-07T19:41:00.7562055Z + echo /opt/conda/bin
2025-05-07T19:41:00.7729180Z Prepare all required actions
2025-05-07T19:41:00.7788255Z ##[group]Run ./test-infra/.github/actions/set-channel
2025-05-07T19:41:00.7788550Z env:
2025-05-07T19:41:00.7788718Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:00.7788907Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:00.7789101Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:00.7789301Z   REF: 
2025-05-07T19:41:00.7789452Z   CU_VERSION: cu128
2025-05-07T19:41:00.7789631Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:00.7789827Z   ARCH: aarch64
2025-05-07T19:41:00.7789990Z   BUILD_TARGET: genai
2025-05-07T19:41:00.7790173Z ##[endgroup]
2025-05-07T19:41:00.7907788Z ##[group]Run set -euxo pipefail
2025-05-07T19:41:00.7908076Z [36;1mset -euxo pipefail[0m
2025-05-07T19:41:00.7908329Z [36;1mecho "CHANNEL=nightly" >> "${GITHUB_ENV}"[0m
2025-05-07T19:41:00.7909100Z shell: bash --noprofile --norc -e -o pipefail {0}
2025-05-07T19:41:00.7909367Z env:
2025-05-07T19:41:00.7909868Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:00.7910101Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:00.7910302Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:00.7910501Z   REF: 
2025-05-07T19:41:00.7910645Z   CU_VERSION: cu128
2025-05-07T19:41:00.7910831Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:00.7911024Z   ARCH: aarch64
2025-05-07T19:41:00.7911192Z   BUILD_TARGET: genai
2025-05-07T19:41:00.7911368Z ##[endgroup]
2025-05-07T19:41:00.9248192Z + echo CHANNEL=nightly
2025-05-07T19:41:00.9409321Z Prepare all required actions
2025-05-07T19:41:00.9409720Z Getting action download info
2025-05-07T19:41:01.0741319Z Download action repository 'actions/checkout@v4' (SHA:11bd71901bbe5b1630ceea73d27597364c9af683)
2025-05-07T19:41:01.3276625Z Download action repository 'conda-incubator/setup-miniconda@v3.1.1' (SHA:505e6394dae86d6a5c7fbb6e3fb8938e3e863830)
2025-05-07T19:41:01.6673507Z ##[group]Run ./test-infra/.github/actions/setup-binary-builds
2025-05-07T19:41:01.6673835Z with:
2025-05-07T19:41:01.6674007Z   repository: pytorch/FBGEMM
2025-05-07T19:41:01.6674248Z   submodules: recursive
2025-05-07T19:41:01.6674439Z   setup-miniconda: false
2025-05-07T19:41:01.6674644Z   python-version: 3.9
2025-05-07T19:41:01.6674828Z   cuda-version: cu128
2025-05-07T19:41:01.6675005Z   arch: aarch64
2025-05-07T19:41:01.6675184Z   upload-to-base-bucket: no
2025-05-07T19:41:01.6675376Z env:
2025-05-07T19:41:01.6675528Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:01.6675714Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:01.6675950Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:01.6676155Z   REF: 
2025-05-07T19:41:01.6676304Z   CU_VERSION: cu128
2025-05-07T19:41:01.6676483Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:01.6676679Z   ARCH: aarch64
2025-05-07T19:41:01.6676844Z   BUILD_TARGET: genai
2025-05-07T19:41:01.6677023Z   CHANNEL: nightly
2025-05-07T19:41:01.6677200Z   PLATFORM: linux-aarch64
2025-05-07T19:41:01.6677395Z ##[endgroup]
2025-05-07T19:41:01.6708707Z ##[group]Run set -euxo pipefail
2025-05-07T19:41:01.6709136Z [36;1mset -euxo pipefail[0m
2025-05-07T19:41:01.6732406Z [36;1mrm -rf "${REPOSITORY}"[0m
2025-05-07T19:41:01.6733031Z shell: bash --noprofile --norc -e -o pipefail {0}
2025-05-07T19:41:01.6733302Z env:
2025-05-07T19:41:01.6733460Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:01.6733649Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:01.6733844Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:01.6734046Z   REF: 
2025-05-07T19:41:01.6734188Z   CU_VERSION: cu128
2025-05-07T19:41:01.6734391Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:01.6734584Z   ARCH: aarch64
2025-05-07T19:41:01.6734752Z   BUILD_TARGET: genai
2025-05-07T19:41:01.6734927Z   CHANNEL: nightly
2025-05-07T19:41:01.6735109Z   PLATFORM: linux-aarch64
2025-05-07T19:41:01.6735303Z ##[endgroup]
2025-05-07T19:41:01.8347224Z + rm -rf pytorch/FBGEMM
2025-05-07T19:41:01.8458000Z ##[group]Run actions/checkout@v4
2025-05-07T19:41:01.8458224Z with:
2025-05-07T19:41:01.8458397Z   repository: pytorch/FBGEMM
2025-05-07T19:41:01.8458608Z   submodules: recursive
2025-05-07T19:41:01.8458799Z   path: pytorch/FBGEMM
2025-05-07T19:41:01.8459209Z   token: ***
2025-05-07T19:41:01.8459368Z   ssh-strict: true
2025-05-07T19:41:01.8459538Z   ssh-user: git
2025-05-07T19:41:01.8459713Z   persist-credentials: true
2025-05-07T19:41:01.8459914Z   clean: true
2025-05-07T19:41:01.8460095Z   sparse-checkout-cone-mode: true
2025-05-07T19:41:01.8460320Z   fetch-depth: 1
2025-05-07T19:41:01.8460486Z   fetch-tags: false
2025-05-07T19:41:01.8460667Z   show-progress: true
2025-05-07T19:41:01.8460861Z   lfs: false
2025-05-07T19:41:01.8461028Z   set-safe-directory: true
2025-05-07T19:41:01.8461225Z env:
2025-05-07T19:41:01.8461373Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:01.8461564Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:01.8461755Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:01.8461953Z   REF: 
2025-05-07T19:41:01.8462095Z   CU_VERSION: cu128
2025-05-07T19:41:01.8462277Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:01.8462469Z   ARCH: aarch64
2025-05-07T19:41:01.8462639Z   BUILD_TARGET: genai
2025-05-07T19:41:01.8462816Z   CHANNEL: nightly
2025-05-07T19:41:01.8463315Z   PLATFORM: linux-aarch64
2025-05-07T19:41:01.8463509Z ##[endgroup]
2025-05-07T19:41:01.8467839Z ##[command]/usr/bin/docker exec  c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9 sh -c "cat /etc/*release | grep ^ID"
2025-05-07T19:41:02.0187851Z Syncing repository: pytorch/FBGEMM
2025-05-07T19:41:02.0195238Z ##[group]Getting Git version info
2025-05-07T19:41:02.0195982Z Working directory is '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM'
2025-05-07T19:41:02.0232882Z [command]/usr/local/bin/git version
2025-05-07T19:41:02.0274851Z git version 2.49.0
2025-05-07T19:41:02.0302284Z ##[endgroup]
2025-05-07T19:41:02.0324383Z Temporarily overriding HOME='/__w/_temp/b7e08a8b-f2f1-4f6e-ade5-f4c321ec94ef' before making global git config changes
2025-05-07T19:41:02.0325097Z Adding repository directory to the temporary git global config as a safe directory
2025-05-07T19:41:02.0331638Z [command]/usr/local/bin/git config --global --add safe.directory /__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T19:41:02.0368291Z ##[group]Initializing the repository
2025-05-07T19:41:02.0373056Z [command]/usr/local/bin/git init /__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T19:41:02.0409440Z hint: Using 'master' as the name for the initial branch. This default branch name
2025-05-07T19:41:02.0409928Z hint: is subject to change. To configure the initial branch name to use in all
2025-05-07T19:41:02.0410411Z hint: of your new repositories, which will suppress this warning, call:
2025-05-07T19:41:02.0410744Z hint:
2025-05-07T19:41:02.0410957Z hint: 	git config --global init.defaultBranch <name>
2025-05-07T19:41:02.0411222Z hint:
2025-05-07T19:41:02.0411484Z hint: Names commonly chosen instead of 'master' are 'main', 'trunk' and
2025-05-07T19:41:02.0411944Z hint: 'development'. The just-created branch can be renamed via this command:
2025-05-07T19:41:02.0412288Z hint:
2025-05-07T19:41:02.0412449Z hint: 	git branch -m <name>
2025-05-07T19:41:02.0415476Z Initialized empty Git repository in /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.git/
2025-05-07T19:41:02.0424200Z [command]/usr/local/bin/git remote add origin https://github.com/pytorch/FBGEMM
2025-05-07T19:41:02.0456666Z ##[endgroup]
2025-05-07T19:41:02.0457066Z ##[group]Disabling automatic garbage collection
2025-05-07T19:41:02.0464071Z [command]/usr/local/bin/git config --local gc.auto 0
2025-05-07T19:41:02.0495489Z ##[endgroup]
2025-05-07T19:41:02.0495792Z ##[group]Setting up auth
2025-05-07T19:41:02.0503371Z [command]/usr/local/bin/git config --local --name-only --get-regexp core\.sshCommand
2025-05-07T19:41:02.0538514Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local --name-only --get-regexp 'core\.sshCommand' && git config --local --unset-all 'core.sshCommand' || :"
2025-05-07T19:41:02.0897225Z [command]/usr/local/bin/git config --local --name-only --get-regexp http\.https\:\/\/github\.com\/\.extraheader
2025-05-07T19:41:02.0930853Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local --name-only --get-regexp 'http\.https\:\/\/github\.com\/\.extraheader' && git config --local --unset-all 'http.https://github.com/.extraheader' || :"
2025-05-07T19:41:02.1293456Z [command]/usr/local/bin/git config --local http.https://github.com/.extraheader AUTHORIZATION: basic ***
2025-05-07T19:41:02.1346089Z ##[endgroup]
2025-05-07T19:41:02.1355293Z ##[group]Fetching the repository
2025-05-07T19:41:02.1356095Z [command]/usr/local/bin/git -c protocol.version=2 fetch --no-tags --prune --no-recurse-submodules --depth=1 origin +a2f4c52051596e74bc8c16e3d2867a4ecdd271e0:refs/remotes/pull/4066/merge
2025-05-07T19:41:02.6610355Z From https://github.com/pytorch/FBGEMM
2025-05-07T19:41:02.6610787Z  * [new ref]         a2f4c52051596e74bc8c16e3d2867a4ecdd271e0 -> pull/4066/merge
2025-05-07T19:41:02.6643233Z ##[endgroup]
2025-05-07T19:41:02.6643586Z ##[group]Determining the checkout info
2025-05-07T19:41:02.6645240Z ##[endgroup]
2025-05-07T19:41:02.6650727Z [command]/usr/local/bin/git sparse-checkout disable
2025-05-07T19:41:02.6691788Z [command]/usr/local/bin/git config --local --unset-all extensions.worktreeConfig
2025-05-07T19:41:02.6722995Z ##[group]Checking out the ref
2025-05-07T19:41:02.6728480Z [command]/usr/local/bin/git checkout --progress --force refs/remotes/pull/4066/merge
2025-05-07T19:41:02.7529780Z Note: switching to 'refs/remotes/pull/4066/merge'.
2025-05-07T19:41:02.7529997Z 
2025-05-07T19:41:02.7530180Z You are in 'detached HEAD' state. You can look around, make experimental
2025-05-07T19:41:02.7530962Z changes and commit them, and you can discard any commits you make in this
2025-05-07T19:41:02.7531425Z state without impacting any branches by switching back to a branch.
2025-05-07T19:41:02.7531698Z 
2025-05-07T19:41:02.7531871Z If you want to create a new branch to retain commits you create, you may
2025-05-07T19:41:02.7532284Z do so (now or later) by using -c with the switch command. Example:
2025-05-07T19:41:02.7532522Z 
2025-05-07T19:41:02.7532613Z   git switch -c <new-branch-name>
2025-05-07T19:41:02.7532774Z 
2025-05-07T19:41:02.7532876Z Or undo this operation with:
2025-05-07T19:41:02.7533022Z 
2025-05-07T19:41:02.7533089Z   git switch -
2025-05-07T19:41:02.7533197Z 
2025-05-07T19:41:02.7533402Z Turn off this advice by setting config variable advice.detachedHead to false
2025-05-07T19:41:02.7533692Z 
2025-05-07T19:41:02.7534033Z HEAD is now at a2f4c52 Merge 6060cd4b5f971680caecdcc657faccb5720d1c3e into fd4df5f456e0cca514bacd98a39efb72990fd9f4
2025-05-07T19:41:02.7542409Z ##[endgroup]
2025-05-07T19:41:02.7542859Z ##[group]Setting up auth for fetching submodules
2025-05-07T19:41:02.7549168Z [command]/usr/local/bin/git config --global http.https://github.com/.extraheader AUTHORIZATION: basic ***
2025-05-07T19:41:02.7600501Z [command]/usr/local/bin/git config --global --unset-all url.https://github.com/.insteadOf
2025-05-07T19:41:02.7632141Z [command]/usr/local/bin/git config --global --add url.https://github.com/.insteadOf git@github.com:
2025-05-07T19:41:02.7668023Z [command]/usr/local/bin/git config --global --add url.https://github.com/.insteadOf org-21003710@github.com:
2025-05-07T19:41:02.7696018Z ##[endgroup]
2025-05-07T19:41:02.7696325Z ##[group]Fetching submodules
2025-05-07T19:41:02.7701371Z [command]/usr/local/bin/git submodule sync --recursive
2025-05-07T19:41:02.8060488Z [command]/usr/local/bin/git -c protocol.version=2 submodule update --init --force --depth=1 --recursive
2025-05-07T19:41:02.8413033Z Submodule 'external/asmjit' (https://github.com/asmjit/asmjit.git) registered for path 'external/asmjit'
2025-05-07T19:41:02.8413952Z Submodule 'external/composable_kernel' (https://github.com/jwfromm/composable_kernel.git) registered for path 'external/composable_kernel'
2025-05-07T19:41:02.8478245Z Submodule 'external/cpuinfo' (https://github.com/pytorch/cpuinfo) registered for path 'external/cpuinfo'
2025-05-07T19:41:02.8479819Z Submodule 'external/cutlass' (https://github.com/jwfromm/cutlass) registered for path 'external/cutlass'
2025-05-07T19:41:02.8482143Z Submodule 'external/googletest' (https://github.com/google/googletest) registered for path 'external/googletest'
2025-05-07T19:41:02.8484462Z Submodule 'external/hipify_torch' (https://github.com/ROCmSoftwarePlatform/hipify_torch.git) registered for path 'external/hipify_torch'
2025-05-07T19:41:02.8486749Z Submodule 'external/json' (https://github.com/nlohmann/json.git) registered for path 'external/json'
2025-05-07T19:41:02.8516297Z Cloning into '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit'...
2025-05-07T19:41:03.2296312Z Cloning into '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/composable_kernel'...
2025-05-07T19:41:03.6537554Z Cloning into '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/cpuinfo'...
2025-05-07T19:41:04.0865007Z Cloning into '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/cutlass'...
2025-05-07T19:41:06.0699594Z Cloning into '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/googletest'...
2025-05-07T19:41:06.3192290Z Cloning into '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/hipify_torch'...
2025-05-07T19:41:06.6109183Z Cloning into '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/json'...
2025-05-07T19:41:07.8904731Z From https://github.com/asmjit/asmjit
2025-05-07T19:41:07.8905136Z  * branch            e5d7c0bd5d9aec44d68830187138149e6a8c4e32 -> FETCH_HEAD
2025-05-07T19:41:07.9301489Z Submodule path 'external/asmjit': checked out 'e5d7c0bd5d9aec44d68830187138149e6a8c4e32'
2025-05-07T19:41:08.8212896Z From https://github.com/jwfromm/composable_kernel
2025-05-07T19:41:08.8214396Z  * branch            4a61bdd4bd4ed730e078aebc7c0fcf046ff29406 -> FETCH_HEAD
2025-05-07T19:41:09.0122621Z Submodule path 'external/composable_kernel': checked out '4a61bdd4bd4ed730e078aebc7c0fcf046ff29406'
2025-05-07T19:41:09.7131964Z From https://github.com/pytorch/cpuinfo
2025-05-07T19:41:09.7132346Z  * branch            6543fec09b2f04ac4a666882998b534afc9c1349 -> FETCH_HEAD
2025-05-07T19:41:09.7900388Z Submodule path 'external/cpuinfo': checked out '6543fec09b2f04ac4a666882998b534afc9c1349'
2025-05-07T19:41:11.3578170Z From https://github.com/jwfromm/cutlass
2025-05-07T19:41:11.3578628Z  * branch            3ed8d2ec4ba35ef5d9d8353826209b6f868f63d3 -> FETCH_HEAD
2025-05-07T19:41:11.8683130Z Submodule path 'external/cutlass': checked out '3ed8d2ec4ba35ef5d9d8353826209b6f868f63d3'
2025-05-07T19:41:12.5803553Z From https://github.com/google/googletest
2025-05-07T19:41:12.5803946Z  * branch            f8d7d77c06936315286eb55f8de22cd23c188571 -> FETCH_HEAD
2025-05-07T19:41:12.6117555Z Submodule path 'external/googletest': checked out 'f8d7d77c06936315286eb55f8de22cd23c188571'
2025-05-07T19:41:13.1568488Z From https://github.com/ROCmSoftwarePlatform/hipify_torch
2025-05-07T19:41:13.1568943Z  * branch            420084499c7c1e1c2d801922f40df202eac5f3a0 -> FETCH_HEAD
2025-05-07T19:41:13.1632100Z Submodule path 'external/hipify_torch': checked out '420084499c7c1e1c2d801922f40df202eac5f3a0'
2025-05-07T19:41:13.8852789Z From https://github.com/nlohmann/json
2025-05-07T19:41:13.8853193Z  * branch            9cca280a4d0ccf0c08f47a99aa71d1b0e52f8d03 -> FETCH_HEAD
2025-05-07T19:41:13.9721021Z Submodule path 'external/json': checked out '9cca280a4d0ccf0c08f47a99aa71d1b0e52f8d03'
2025-05-07T19:41:13.9758286Z [command]/usr/local/bin/git submodule foreach --recursive git config --local gc.auto 0
2025-05-07T19:41:14.0105968Z Entering 'external/asmjit'
2025-05-07T19:41:14.0154558Z Entering 'external/composable_kernel'
2025-05-07T19:41:14.0209474Z Entering 'external/cpuinfo'
2025-05-07T19:41:14.0260714Z Entering 'external/cutlass'
2025-05-07T19:41:14.0317071Z Entering 'external/googletest'
2025-05-07T19:41:14.0366056Z Entering 'external/hipify_torch'
2025-05-07T19:41:14.0416982Z Entering 'external/json'
2025-05-07T19:41:14.0477933Z ##[endgroup]
2025-05-07T19:41:14.0478296Z ##[group]Persisting credentials for submodules
2025-05-07T19:41:14.0486072Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local --name-only --get-regexp 'url\.https\:\/\/github\.com\/\.insteadOf' && git config --local --unset-all 'url.https://github.com/.insteadOf' || :"
2025-05-07T19:41:14.0827743Z Entering 'external/asmjit'
2025-05-07T19:41:14.0892242Z Entering 'external/composable_kernel'
2025-05-07T19:41:14.0963439Z Entering 'external/cpuinfo'
2025-05-07T19:41:14.1029598Z Entering 'external/cutlass'
2025-05-07T19:41:14.1103946Z Entering 'external/googletest'
2025-05-07T19:41:14.1169361Z Entering 'external/hipify_torch'
2025-05-07T19:41:14.1235457Z Entering 'external/json'
2025-05-07T19:41:14.1317537Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local 'http.https://github.com/.extraheader' 'AUTHORIZATION: basic ***' && git config --local --show-origin --name-only --get-regexp remote.origin.url"
2025-05-07T19:41:14.1666143Z Entering 'external/asmjit'
2025-05-07T19:41:14.1725486Z file:/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.git/modules/external/asmjit/config	remote.origin.url
2025-05-07T19:41:14.1744601Z Entering 'external/composable_kernel'
2025-05-07T19:41:14.1806055Z file:/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.git/modules/external/composable_kernel/config	remote.origin.url
2025-05-07T19:41:14.1830487Z Entering 'external/cpuinfo'
2025-05-07T19:41:14.1893722Z file:/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.git/modules/external/cpuinfo/config	remote.origin.url
2025-05-07T19:41:14.1912280Z Entering 'external/cutlass'
2025-05-07T19:41:14.1974741Z file:/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.git/modules/external/cutlass/config	remote.origin.url
2025-05-07T19:41:14.2001765Z Entering 'external/googletest'
2025-05-07T19:41:14.2065147Z file:/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.git/modules/external/googletest/config	remote.origin.url
2025-05-07T19:41:14.2083429Z Entering 'external/hipify_torch'
2025-05-07T19:41:14.2145139Z file:/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.git/modules/external/hipify_torch/config	remote.origin.url
2025-05-07T19:41:14.2163812Z Entering 'external/json'
2025-05-07T19:41:14.2226364Z file:/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.git/modules/external/json/config	remote.origin.url
2025-05-07T19:41:14.2316015Z [command]/usr/local/bin/git submodule foreach --recursive git config --local --add 'url.https://github.com/.insteadOf' 'git@github.com:'
2025-05-07T19:41:14.2660666Z Entering 'external/asmjit'
2025-05-07T19:41:14.2707706Z Entering 'external/composable_kernel'
2025-05-07T19:41:14.2763652Z Entering 'external/cpuinfo'
2025-05-07T19:41:14.2813242Z Entering 'external/cutlass'
2025-05-07T19:41:14.2870124Z Entering 'external/googletest'
2025-05-07T19:41:14.2919757Z Entering 'external/hipify_torch'
2025-05-07T19:41:14.2969026Z Entering 'external/json'
2025-05-07T19:41:14.3034126Z [command]/usr/local/bin/git submodule foreach --recursive git config --local --add 'url.https://github.com/.insteadOf' 'org-21003710@github.com:'
2025-05-07T19:41:14.3379440Z Entering 'external/asmjit'
2025-05-07T19:41:14.3427308Z Entering 'external/composable_kernel'
2025-05-07T19:41:14.3483884Z Entering 'external/cpuinfo'
2025-05-07T19:41:14.3535417Z Entering 'external/cutlass'
2025-05-07T19:41:14.3592274Z Entering 'external/googletest'
2025-05-07T19:41:14.3644392Z Entering 'external/hipify_torch'
2025-05-07T19:41:14.3694049Z Entering 'external/json'
2025-05-07T19:41:14.3755668Z ##[endgroup]
2025-05-07T19:41:14.3796417Z [command]/usr/local/bin/git log -1 --format=%H
2025-05-07T19:41:14.3821788Z a2f4c52051596e74bc8c16e3d2867a4ecdd271e0
2025-05-07T19:41:14.3951010Z ##[group]Run echo "ENV VARS"
2025-05-07T19:41:14.3951290Z [36;1mecho "ENV VARS"[0m
2025-05-07T19:41:14.3951497Z [36;1mecho "${GITHUB_REF_NAME}"[0m
2025-05-07T19:41:14.3951872Z [36;1mecho "${GITHUB_REF}"[0m
2025-05-07T19:41:14.3952113Z [36;1mecho "${GITHUB_BASE_REF}"[0m
2025-05-07T19:41:14.3952324Z [36;1m[0m
2025-05-07T19:41:14.3952489Z [36;1mecho "GITHUB PROVIDED"[0m
2025-05-07T19:41:14.3952707Z [36;1mecho "4066/merge"[0m
2025-05-07T19:41:14.3952902Z [36;1mecho ""[0m
2025-05-07T19:41:14.3953081Z [36;1mecho "refs/pull/4066/merge"[0m
2025-05-07T19:41:14.3953306Z [36;1mecho "main"[0m
2025-05-07T19:41:14.3953909Z shell: bash --noprofile --norc -e -o pipefail {0}
2025-05-07T19:41:14.3954185Z env:
2025-05-07T19:41:14.3954337Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:14.3954547Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:14.3954747Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:14.3954943Z   REF: 
2025-05-07T19:41:14.3955089Z   CU_VERSION: cu128
2025-05-07T19:41:14.3955267Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:14.3955464Z   ARCH: aarch64
2025-05-07T19:41:14.3955627Z   BUILD_TARGET: genai
2025-05-07T19:41:14.3955806Z   CHANNEL: nightly
2025-05-07T19:41:14.3955987Z   PLATFORM: linux-aarch64
2025-05-07T19:41:14.3956180Z ##[endgroup]
2025-05-07T19:41:14.5347253Z ENV VARS
2025-05-07T19:41:14.5347449Z 4066/merge
2025-05-07T19:41:14.5347607Z refs/pull/4066/merge
2025-05-07T19:41:14.5347778Z main
2025-05-07T19:41:14.5347929Z GITHUB PROVIDED
2025-05-07T19:41:14.5348106Z 4066/merge
2025-05-07T19:41:14.5348202Z 
2025-05-07T19:41:14.5348268Z refs/pull/4066/merge
2025-05-07T19:41:14.5348435Z main
2025-05-07T19:41:14.5396993Z ##[group]Run set -euxo pipefail
2025-05-07T19:41:14.5397291Z [36;1mset -euxo pipefail[0m
2025-05-07T19:41:14.5397675Z [36;1m# Set artifact name here since github actions doesn't have string manipulation tools[0m
2025-05-07T19:41:14.5398547Z [36;1m# and "/" is not allowed in artifact names. //\//_ is to replace all forward slashes,[0m
2025-05-07T19:41:14.5398928Z [36;1m# not just the first one[0m
2025-05-07T19:41:14.5399380Z [36;1mecho "ARTIFACT_NAME=${REPOSITORY//\//_}_${REF//\//_}_${PYTHON_VERSION}_${CU_VERSION}_${ARCH}" >> "${GITHUB_ENV}"[0m
2025-05-07T19:41:14.5399988Z shell: bash --noprofile --norc -e -o pipefail {0}
2025-05-07T19:41:14.5400447Z env:
2025-05-07T19:41:14.5400609Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:14.5400796Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:14.5400993Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:14.5401189Z   REF: 
2025-05-07T19:41:14.5401333Z   CU_VERSION: cu128
2025-05-07T19:41:14.5401512Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:14.5401712Z   ARCH: aarch64
2025-05-07T19:41:14.5401881Z   BUILD_TARGET: genai
2025-05-07T19:41:14.5402053Z   CHANNEL: nightly
2025-05-07T19:41:14.5402234Z   PLATFORM: linux-aarch64
2025-05-07T19:41:14.5402431Z ##[endgroup]
2025-05-07T19:41:14.5755138Z + echo ARTIFACT_NAME=pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:41:14.5805618Z ##[group]Run set -euxo pipefail
2025-05-07T19:41:14.5805901Z [36;1mset -euxo pipefail[0m
2025-05-07T19:41:14.5806154Z [36;1mconda info | grep -i 'base environment'[0m
2025-05-07T19:41:14.5806439Z [36;1mconda clean --all --quiet --yes[0m
2025-05-07T19:41:14.5806781Z shell: bash -l {0}
2025-05-07T19:41:14.5806948Z env:
2025-05-07T19:41:14.5807119Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:14.5807309Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:14.5807504Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:14.5807707Z   REF: 
2025-05-07T19:41:14.5807850Z   CU_VERSION: cu128
2025-05-07T19:41:14.5808028Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:14.5808218Z   ARCH: aarch64
2025-05-07T19:41:14.5808384Z   BUILD_TARGET: genai
2025-05-07T19:41:14.5808557Z   CHANNEL: nightly
2025-05-07T19:41:14.5808774Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:41:14.5809052Z   PLATFORM: linux-aarch64
2025-05-07T19:41:14.5809253Z ##[endgroup]
2025-05-07T19:41:14.6666492Z + conda info
2025-05-07T19:41:14.6666728Z + grep -i 'base environment'
2025-05-07T19:41:15.2966324Z        base environment : /opt/conda  (writable)
2025-05-07T19:41:15.2967187Z + conda clean --all --quiet --yes
2025-05-07T19:41:15.7856637Z ##[group]Run set -euxo pipefail
2025-05-07T19:41:15.7856911Z [36;1mset -euxo pipefail[0m
2025-05-07T19:41:15.7857192Z [36;1mconda config --set channel_priority false[0m
2025-05-07T19:41:15.7857648Z shell: bash -l {0}
2025-05-07T19:41:15.7857818Z env:
2025-05-07T19:41:15.7857970Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:15.7858159Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:15.7858355Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:15.7858552Z   REF: 
2025-05-07T19:41:15.7858698Z   CU_VERSION: cu128
2025-05-07T19:41:15.7858878Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:15.7859103Z   ARCH: aarch64
2025-05-07T19:41:15.7859265Z   BUILD_TARGET: genai
2025-05-07T19:41:15.7859444Z   CHANNEL: nightly
2025-05-07T19:41:15.7859669Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:41:15.7859943Z   PLATFORM: linux-aarch64
2025-05-07T19:41:15.7860134Z ##[endgroup]
2025-05-07T19:41:15.9744463Z + conda config --set channel_priority false
2025-05-07T19:41:16.3459465Z ##[group]Run set -euxo pipefail
2025-05-07T19:41:16.3459756Z [36;1mset -euxo pipefail[0m
2025-05-07T19:41:16.3460088Z [36;1mCONDA_ENV="${RUNNER_TEMP}/pytorch_pkg_helpers_${GITHUB_RUN_ID}"[0m
2025-05-07T19:41:16.3460431Z [36;1mconda create \[0m
2025-05-07T19:41:16.3460631Z [36;1m  --yes --quiet \[0m
2025-05-07T19:41:16.3460841Z [36;1m  --prefix "${CONDA_ENV}" \[0m
2025-05-07T19:41:16.3461075Z [36;1m  "python=3.9"[0m
2025-05-07T19:41:16.3461271Z [36;1mCONDA_ENV="${CONDA_ENV}"[0m
2025-05-07T19:41:16.3461523Z [36;1mCONDA_RUN="conda run -p ${CONDA_ENV}"[0m
2025-05-07T19:41:16.3461945Z [36;1m${CONDA_RUN} python -m pip install ${GITHUB_WORKSPACE}/test-infra/tools/pkg-helpers[0m
2025-05-07T19:41:16.3462423Z [36;1mBUILD_ENV_FILE="${RUNNER_TEMP}/build_env_${GITHUB_RUN_ID}"[0m
2025-05-07T19:41:16.3463095Z [36;1m${CONDA_RUN} python -m pytorch_pkg_helpers > "${BUILD_ENV_FILE}"[0m
2025-05-07T19:41:16.3463428Z [36;1mcat "${BUILD_ENV_FILE}"[0m
2025-05-07T19:41:16.3463731Z [36;1mecho "BUILD_ENV_FILE=${BUILD_ENV_FILE}" >> "${GITHUB_ENV}"[0m
2025-05-07T19:41:16.3464172Z shell: bash -l {0}
2025-05-07T19:41:16.3464342Z env:
2025-05-07T19:41:16.3464494Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:16.3464884Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:16.3465096Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:16.3465293Z   REF: 
2025-05-07T19:41:16.3465439Z   CU_VERSION: cu128
2025-05-07T19:41:16.3465614Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:16.3465809Z   ARCH: aarch64
2025-05-07T19:41:16.3465972Z   BUILD_TARGET: genai
2025-05-07T19:41:16.3466150Z   CHANNEL: nightly
2025-05-07T19:41:16.3466357Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:41:16.3466636Z   PLATFORM: linux-aarch64
2025-05-07T19:41:16.3466833Z ##[endgroup]
2025-05-07T19:41:16.5545248Z + CONDA_ENV=/__w/_temp/pytorch_pkg_helpers_14891846315
2025-05-07T19:41:16.5545754Z + conda create --yes --quiet --prefix /__w/_temp/pytorch_pkg_helpers_14891846315 python=3.9
2025-05-07T19:41:17.1157273Z Channels:
2025-05-07T19:41:17.1157466Z  - conda-forge
2025-05-07T19:41:17.1157651Z Platform: linux-aarch64
2025-05-07T19:41:22.2210574Z Collecting package metadata (repodata.json): ...working... done
2025-05-07T19:41:22.3540013Z Solving environment: ...working... done
2025-05-07T19:41:23.5262388Z 
2025-05-07T19:41:23.5262749Z ## Package Plan ##
2025-05-07T19:41:23.5262902Z 
2025-05-07T19:41:23.5263078Z   environment location: /__w/_temp/pytorch_pkg_helpers_14891846315
2025-05-07T19:41:23.5263352Z 
2025-05-07T19:41:23.5263425Z   added / updated specs:
2025-05-07T19:41:23.5263619Z     - python=3.9
2025-05-07T19:41:23.5263734Z 
2025-05-07T19:41:23.5263738Z 
2025-05-07T19:41:23.5263838Z The following packages will be downloaded:
2025-05-07T19:41:23.5264026Z 
2025-05-07T19:41:23.5264166Z     package                    |            build
2025-05-07T19:41:23.5264483Z     ---------------------------|-----------------
2025-05-07T19:41:23.5264816Z     _openmp_mutex-4.5          |            2_gnu          23 KB  conda-forge
2025-05-07T19:41:23.5265228Z     ca-certificates-2025.4.26  |       hbd8a1cb_0         149 KB  conda-forge
2025-05-07T19:41:23.5265666Z     ld_impl_linux-aarch64-2.43 |       h80caac9_4         683 KB  conda-forge
2025-05-07T19:41:23.5266080Z     libgcc-ng-14.2.0           |       he9431aa_2          52 KB  conda-forge
2025-05-07T19:41:23.5266447Z     liblzma-5.8.1              |       h86ecc28_1         122 KB  conda-forge
2025-05-07T19:41:23.5266818Z     libsqlite-3.49.2           |       h5eb1b54_0         894 KB  conda-forge
2025-05-07T19:41:23.5267180Z     openssl-3.5.0              |       hd08dc88_1         3.5 MB  conda-forge
2025-05-07T19:41:23.5267529Z     pip-25.1.1                 |     pyh8b19718_0         1.2 MB  conda-forge
2025-05-07T19:41:23.5267894Z     python-3.9.22              |h59a44ae_1_cpython        12.0 MB  conda-forge
2025-05-07T19:41:23.5268284Z     setuptools-80.1.0          |     pyhff2d567_0         760 KB  conda-forge
2025-05-07T19:41:23.5268642Z     ------------------------------------------------------------
2025-05-07T19:41:23.5268933Z                                            Total:        19.2 MB
2025-05-07T19:41:23.5269116Z 
2025-05-07T19:41:23.5269229Z The following NEW packages will be INSTALLED:
2025-05-07T19:41:23.5269422Z 
2025-05-07T19:41:23.5269628Z   _openmp_mutex      conda-forge/linux-aarch64::_openmp_mutex-4.5-2_gnu 
2025-05-07T19:41:23.5270042Z   bzip2              conda-forge/linux-aarch64::bzip2-1.0.8-h68df207_7 
2025-05-07T19:41:23.5270486Z   ca-certificates    conda-forge/noarch::ca-certificates-2025.4.26-hbd8a1cb_0 
2025-05-07T19:41:23.5271166Z   ld_impl_linux-aar~ conda-forge/linux-aarch64::ld_impl_linux-aarch64-2.43-h80caac9_4 
2025-05-07T19:41:23.5271671Z   libexpat           conda-forge/linux-aarch64::libexpat-2.7.0-h5ad3122_0 
2025-05-07T19:41:23.5272669Z   libffi             conda-forge/linux-aarch64::libffi-3.4.6-he21f813_1 
2025-05-07T19:41:23.5273067Z   libgcc             conda-forge/linux-aarch64::libgcc-14.2.0-he277a41_2 
2025-05-07T19:41:23.5273480Z   libgcc-ng          conda-forge/linux-aarch64::libgcc-ng-14.2.0-he9431aa_2 
2025-05-07T19:41:23.5273895Z   libgomp            conda-forge/linux-aarch64::libgomp-14.2.0-he277a41_2 
2025-05-07T19:41:23.5274526Z   liblzma            conda-forge/linux-aarch64::liblzma-5.8.1-h86ecc28_1 
2025-05-07T19:41:23.5274937Z   libnsl             conda-forge/linux-aarch64::libnsl-2.0.1-h31becfc_0 
2025-05-07T19:41:23.5275353Z   libsqlite          conda-forge/linux-aarch64::libsqlite-3.49.2-h5eb1b54_0 
2025-05-07T19:41:23.5275781Z   libuuid            conda-forge/linux-aarch64::libuuid-2.38.1-hb4cce97_0 
2025-05-07T19:41:23.5276203Z   libxcrypt          conda-forge/linux-aarch64::libxcrypt-4.4.36-h31becfc_1 
2025-05-07T19:41:23.5276626Z   libzlib            conda-forge/linux-aarch64::libzlib-1.3.1-h86ecc28_2 
2025-05-07T19:41:23.5277029Z   ncurses            conda-forge/linux-aarch64::ncurses-6.5-ha32ae93_3 
2025-05-07T19:41:23.5277425Z   openssl            conda-forge/linux-aarch64::openssl-3.5.0-hd08dc88_1 
2025-05-07T19:41:23.5277799Z   pip                conda-forge/noarch::pip-25.1.1-pyh8b19718_0 
2025-05-07T19:41:23.5278194Z   python             conda-forge/linux-aarch64::python-3.9.22-h59a44ae_1_cpython 
2025-05-07T19:41:23.5278631Z   readline           conda-forge/linux-aarch64::readline-8.2-h8382b9d_2 
2025-05-07T19:41:23.5279048Z   setuptools         conda-forge/noarch::setuptools-80.1.0-pyhff2d567_0 
2025-05-07T19:41:23.5279437Z   tk                 conda-forge/linux-aarch64::tk-8.6.13-h194ca79_0 
2025-05-07T19:41:23.5279787Z   tzdata             conda-forge/noarch::tzdata-2025b-h78e105d_0 
2025-05-07T19:41:23.5280151Z   wheel              conda-forge/noarch::wheel-0.45.1-pyhd8ed1ab_1 
2025-05-07T19:41:23.5280383Z 
2025-05-07T19:41:23.5280392Z 
2025-05-07T19:41:23.7306255Z Preparing transaction: ...working... done
2025-05-07T19:41:24.7334873Z Verifying transaction: ...working... done
2025-05-07T19:41:28.1443626Z Executing transaction: ...working... done
2025-05-07T19:41:28.2569295Z + CONDA_ENV=/__w/_temp/pytorch_pkg_helpers_14891846315
2025-05-07T19:41:28.2569699Z + CONDA_RUN='conda run -p /__w/_temp/pytorch_pkg_helpers_14891846315'
2025-05-07T19:41:28.2570377Z + conda run -p /__w/_temp/pytorch_pkg_helpers_14891846315 python -m pip install /__w/FBGEMM/FBGEMM/test-infra/tools/pkg-helpers
2025-05-07T19:41:31.3100429Z WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager, possibly rendering your system unusable. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv. Use the --root-user-action option if you know what you are doing and want to suppress this warning.
2025-05-07T19:41:31.3101745Z 
2025-05-07T19:41:31.3101913Z Processing /__w/FBGEMM/FBGEMM/test-infra/tools/pkg-helpers
2025-05-07T19:41:31.3102282Z   Installing build dependencies: started
2025-05-07T19:41:31.3102609Z   Installing build dependencies: finished with status 'done'
2025-05-07T19:41:31.3102951Z   Getting requirements to build wheel: started
2025-05-07T19:41:31.3103305Z   Getting requirements to build wheel: finished with status 'done'
2025-05-07T19:41:31.3103667Z   Preparing metadata (pyproject.toml): started
2025-05-07T19:41:31.3104037Z   Preparing metadata (pyproject.toml): finished with status 'done'
2025-05-07T19:41:31.3104453Z Building wheels for collected packages: pytorch-pkg-helpers
2025-05-07T19:41:31.3104862Z   Building wheel for pytorch-pkg-helpers (pyproject.toml): started
2025-05-07T19:41:31.3105349Z   Building wheel for pytorch-pkg-helpers (pyproject.toml): finished with status 'done'
2025-05-07T19:41:31.3106226Z   Created wheel for pytorch-pkg-helpers: filename=pytorch_pkg_helpers-0.1.5-py3-none-any.whl size=7655 sha256=ac9455de5c8d4faabb3965576c35f8951a075a031d5da662b61e2ec94a287dd7
2025-05-07T19:41:31.3107601Z   Stored in directory: /github/home/.cache/pip/wheels/98/9c/c4/592565e0f8c585aaecf739e5a9cf537367404a335919ec0833
2025-05-07T19:41:31.3108133Z Successfully built pytorch-pkg-helpers
2025-05-07T19:41:31.3108433Z Installing collected packages: pytorch-pkg-helpers
2025-05-07T19:41:31.3108761Z Successfully installed pytorch-pkg-helpers-0.1.5
2025-05-07T19:41:31.3108974Z 
2025-05-07T19:41:31.3749464Z + BUILD_ENV_FILE=/__w/_temp/build_env_14891846315
2025-05-07T19:41:31.3749939Z + conda run -p /__w/_temp/pytorch_pkg_helpers_14891846315 python -m pytorch_pkg_helpers
2025-05-07T19:41:32.7896058Z + cat /__w/_temp/build_env_14891846315
2025-05-07T19:41:32.7911605Z # WARNING: Base version not found defaulting BUILD_VERSION to 0.1.0
2025-05-07T19:41:32.7912026Z export BUILD_VERSION='0.1.0.dev20250507'
2025-05-07T19:41:32.7912298Z export CUDA_HOME='/usr/local/cuda-12.8'
2025-05-07T19:41:32.7912559Z export CUDA_PATH='/usr/local/cuda-12.8'
2025-05-07T19:41:32.7912798Z export FORCE_CUDA=1
2025-05-07T19:41:32.7913057Z export PATH="/opt/python/cp39-cp39/bin:${PATH}"
2025-05-07T19:41:32.7913356Z export PATH="/usr/local/cuda-12.8/bin:${PATH}"
2025-05-07T19:41:32.7913877Z export PIP_INSTALL_TORCH='pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T19:41:32.7914456Z export PYTORCH_S3_BUCKET_PATH='s3://pytorch/whl/nightly/cu128/'
2025-05-07T19:41:32.7914785Z export PYTORCH_VERSION_SUFFIX=''
2025-05-07T19:41:32.7915278Z export TORCH_CUDA_ARCH_LIST='5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T19:41:32.7915869Z export VERSION_SUFFIX=''
2025-05-07T19:41:32.7916123Z export WHEEL_DIR=''
2025-05-07T19:41:32.7916253Z 
2025-05-07T19:41:32.7916422Z + echo BUILD_ENV_FILE=/__w/_temp/build_env_14891846315
2025-05-07T19:41:32.8005939Z ##[group]Run set -euxo pipefail
2025-05-07T19:41:32.8006395Z [36;1mset -euxo pipefail[0m
2025-05-07T19:41:32.8006768Z [36;1mCONDA_ENV="${RUNNER_TEMP}/conda_environment_${GITHUB_RUN_ID}"[0m
2025-05-07T19:41:32.8007164Z [36;1mexport CONDA_EXTRA_PARAM=""[0m
2025-05-07T19:41:32.8007529Z [36;1m[0m
2025-05-07T19:41:32.8007785Z [36;1mif [[ "${PYTHON_VERSION:-}" == "3.13t" ]]; then[0m
2025-05-07T19:41:32.8008105Z [36;1m  export PYTHON_VERSION=3.13[0m
2025-05-07T19:41:32.8008581Z [36;1m  export CONDA_EXTRA_PARAM=" python-freethreading -c conda-forge"[0m
2025-05-07T19:41:32.8008950Z [36;1m[0m
2025-05-07T19:41:32.8009231Z [36;1m  # downgrade conda version for python 3.13t install.[0m
2025-05-07T19:41:32.8009755Z [36;1m  # TODO: remove this once python 3.13t is fully supported on conda[0m
2025-05-07T19:41:32.8010226Z [36;1m  # Please see : https://github.com/conda/conda/issues/14554[0m
2025-05-07T19:41:32.8010635Z [36;1m  if [[ "$(uname)" == Darwin ]]; then[0m
2025-05-07T19:41:32.8011009Z [36;1m    # required to be able to downgrade on MacOS arm64[0m
2025-05-07T19:41:32.8011382Z [36;1m    conda install -y python=3.9[0m
2025-05-07T19:41:32.8011784Z [36;1m    if [[ -n "$(conda list | grep conda-anaconda-telemetry)" ]]; then[0m
2025-05-07T19:41:32.8012291Z [36;1m      conda uninstall -y conda-anaconda-telemetry conda-anaconda-tos[0m
2025-05-07T19:41:32.8012698Z [36;1m    fi[0m
2025-05-07T19:41:32.8012899Z [36;1m  fi[0m
2025-05-07T19:41:32.8013242Z [36;1m  conda install -y conda=24.7.1 conda-libmamba-solver=24.1.0[0m
2025-05-07T19:41:32.8013599Z [36;1mfi[0m
2025-05-07T19:41:32.8013815Z [36;1m[0m
2025-05-07T19:41:32.8014058Z [36;1mconda create \[0m
2025-05-07T19:41:32.8014319Z [36;1m    --yes --quiet \[0m
2025-05-07T19:41:32.8014608Z [36;1m    --prefix "${CONDA_ENV}" \[0m
2025-05-07T19:41:32.8014906Z [36;1m    "python=${PYTHON_VERSION}" \[0m
2025-05-07T19:41:32.8015262Z [36;1m    cmake=3.31.2 \[0m
2025-05-07T19:41:32.8015508Z [36;1m    ninja=1.12.1 \[0m
2025-05-07T19:41:32.8015764Z [36;1m    pkg-config=0.29 \[0m
2025-05-07T19:41:32.8016069Z [36;1m    wheel=0.37  \[0m
2025-05-07T19:41:32.8016321Z [36;1m    ${CONDA_EXTRA_PARAM}[0m
2025-05-07T19:41:32.8016575Z [36;1m[0m
2025-05-07T19:41:32.8016857Z [36;1mecho "CONDA_ENV=${CONDA_ENV}" >> "${GITHUB_ENV}"[0m
2025-05-07T19:41:32.8017580Z [36;1mecho "CONDA_RUN=conda run -p ${CONDA_ENV}" >> "${GITHUB_ENV}"[0m
2025-05-07T19:41:32.8018226Z shell: bash -l {0}
2025-05-07T19:41:32.8018554Z env:
2025-05-07T19:41:32.8018927Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:32.8019148Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:32.8019448Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:32.8019682Z   REF: 
2025-05-07T19:41:32.8020085Z   CU_VERSION: cu128
2025-05-07T19:41:32.8020478Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:32.8020752Z   ARCH: aarch64
2025-05-07T19:41:32.8020961Z   BUILD_TARGET: genai
2025-05-07T19:41:32.8021229Z   CHANNEL: nightly
2025-05-07T19:41:32.8021481Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:41:32.8021845Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T19:41:32.8022206Z   PLATFORM: linux-aarch64
2025-05-07T19:41:32.8022444Z ##[endgroup]
2025-05-07T19:41:32.9929288Z + CONDA_ENV=/__w/_temp/conda_environment_14891846315
2025-05-07T19:41:32.9929705Z + export CONDA_EXTRA_PARAM=
2025-05-07T19:41:32.9929974Z + CONDA_EXTRA_PARAM=
2025-05-07T19:41:32.9930359Z + [[ 3.9 == \3\.\1\3\t ]]
2025-05-07T19:41:32.9930954Z + conda create --yes --quiet --prefix /__w/_temp/conda_environment_14891846315 python=3.9 cmake=3.31.2 ninja=1.12.1 pkg-config=0.29 wheel=0.37
2025-05-07T19:41:33.5618766Z Channels:
2025-05-07T19:41:33.5619287Z  - conda-forge
2025-05-07T19:41:33.5619560Z Platform: linux-aarch64
2025-05-07T19:41:36.0194541Z Collecting package metadata (repodata.json): ...working... done
2025-05-07T19:41:36.1824143Z Solving environment: ...working... done
2025-05-07T19:41:37.7230840Z 
2025-05-07T19:41:37.7231262Z ## Package Plan ##
2025-05-07T19:41:37.7231484Z 
2025-05-07T19:41:37.7231685Z   environment location: /__w/_temp/conda_environment_14891846315
2025-05-07T19:41:37.7232082Z 
2025-05-07T19:41:37.7232346Z   added / updated specs:
2025-05-07T19:41:37.7232628Z     - cmake=3.31.2
2025-05-07T19:41:37.7232862Z     - ninja=1.12.1
2025-05-07T19:41:37.7233115Z     - pkg-config=0.29
2025-05-07T19:41:37.7233416Z     - python=3.9
2025-05-07T19:41:37.7233617Z     - wheel=0.37
2025-05-07T19:41:37.7233757Z 
2025-05-07T19:41:37.7233761Z 
2025-05-07T19:41:37.7233867Z The following packages will be downloaded:
2025-05-07T19:41:37.7234123Z 
2025-05-07T19:41:37.7234267Z     package                    |            build
2025-05-07T19:41:37.7234575Z     ---------------------------|-----------------
2025-05-07T19:41:37.7235007Z     c-ares-1.34.5              |       h86ecc28_0         211 KB  conda-forge
2025-05-07T19:41:37.7235488Z     cmake-3.31.2               |       h0efca9c_1        18.9 MB  conda-forge
2025-05-07T19:41:37.7235884Z     libglib-2.84.1             |       hc022ef1_1         3.9 MB  conda-forge
2025-05-07T19:41:37.7236299Z     libssh2-1.11.1             |       h18c354c_0         304 KB  conda-forge
2025-05-07T19:41:37.7237065Z     libstdcxx-ng-14.2.0        |       hf1166c9_2          52 KB  conda-forge
2025-05-07T19:41:37.7237507Z     libuv-1.50.0               |       h86ecc28_0         606 KB  conda-forge
2025-05-07T19:41:37.7237921Z     ninja-1.12.1               |       h17cf362_1         158 KB  conda-forge
2025-05-07T19:41:37.7238358Z     pcre2-10.45                |       hf4ec17f_0         1.1 MB  conda-forge
2025-05-07T19:41:37.7238783Z     pkg-config-0.29.2          |    hce167ba_1009          54 KB  conda-forge
2025-05-07T19:41:37.7239203Z     rhash-1.4.5                |       h86ecc28_0         197 KB  conda-forge
2025-05-07T19:41:37.7239664Z     wheel-0.37.1               |     pyhd8ed1ab_0          31 KB  conda-forge
2025-05-07T19:41:37.7240040Z     ------------------------------------------------------------
2025-05-07T19:41:37.7240400Z                                            Total:        25.5 MB
2025-05-07T19:41:37.7240595Z 
2025-05-07T19:41:37.7240795Z The following NEW packages will be INSTALLED:
2025-05-07T19:41:37.7241017Z 
2025-05-07T19:41:37.7241251Z   _openmp_mutex      conda-forge/linux-aarch64::_openmp_mutex-4.5-2_gnu 
2025-05-07T19:41:37.7242106Z   bzip2              conda-forge/linux-aarch64::bzip2-1.0.8-h68df207_7 
2025-05-07T19:41:37.7242585Z   c-ares             conda-forge/linux-aarch64::c-ares-1.34.5-h86ecc28_0 
2025-05-07T19:41:37.7243084Z   ca-certificates    conda-forge/noarch::ca-certificates-2025.4.26-hbd8a1cb_0 
2025-05-07T19:41:37.7245443Z   cmake              conda-forge/linux-aarch64::cmake-3.31.2-h0efca9c_1 
2025-05-07T19:41:37.7246285Z   keyutils           conda-forge/linux-aarch64::keyutils-1.6.1-h4e544f5_0 
2025-05-07T19:41:37.7246789Z   krb5               conda-forge/linux-aarch64::krb5-1.21.3-h50a48e9_0 
2025-05-07T19:41:37.7247311Z   ld_impl_linux-aar~ conda-forge/linux-aarch64::ld_impl_linux-aarch64-2.43-h80caac9_4 
2025-05-07T19:41:37.7247877Z   libcurl            conda-forge/linux-aarch64::libcurl-8.13.0-h6702fde_0 
2025-05-07T19:41:37.7248411Z   libedit            conda-forge/linux-aarch64::libedit-3.1.20250104-pl5321h976ea20_0 
2025-05-07T19:41:37.7248886Z   libev              conda-forge/linux-aarch64::libev-4.33-h31becfc_2 
2025-05-07T19:41:37.7249347Z   libexpat           conda-forge/linux-aarch64::libexpat-2.7.0-h5ad3122_0 
2025-05-07T19:41:37.7249753Z   libffi             conda-forge/linux-aarch64::libffi-3.4.6-he21f813_1 
2025-05-07T19:41:37.7250149Z   libgcc             conda-forge/linux-aarch64::libgcc-14.2.0-he277a41_2 
2025-05-07T19:41:37.7250639Z   libgcc-ng          conda-forge/linux-aarch64::libgcc-ng-14.2.0-he9431aa_2 
2025-05-07T19:41:37.7251076Z   libglib            conda-forge/linux-aarch64::libglib-2.84.1-hc022ef1_1 
2025-05-07T19:41:37.7251488Z   libgomp            conda-forge/linux-aarch64::libgomp-14.2.0-he277a41_2 
2025-05-07T19:41:37.7251900Z   libiconv           conda-forge/linux-aarch64::libiconv-1.18-hc99b53d_1 
2025-05-07T19:41:37.7252311Z   liblzma            conda-forge/linux-aarch64::liblzma-5.8.1-h86ecc28_1 
2025-05-07T19:41:37.7252746Z   libnghttp2         conda-forge/linux-aarch64::libnghttp2-1.64.0-hc8609a4_0 
2025-05-07T19:41:37.7253182Z   libnsl             conda-forge/linux-aarch64::libnsl-2.0.1-h31becfc_0 
2025-05-07T19:41:37.7253600Z   libsqlite          conda-forge/linux-aarch64::libsqlite-3.49.2-h5eb1b54_0 
2025-05-07T19:41:37.7254023Z   libssh2            conda-forge/linux-aarch64::libssh2-1.11.1-h18c354c_0 
2025-05-07T19:41:37.7254450Z   libstdcxx          conda-forge/linux-aarch64::libstdcxx-14.2.0-h3f4de04_2 
2025-05-07T19:41:37.7254921Z   libstdcxx-ng       conda-forge/linux-aarch64::libstdcxx-ng-14.2.0-hf1166c9_2 
2025-05-07T19:41:37.7255375Z   libuuid            conda-forge/linux-aarch64::libuuid-2.38.1-hb4cce97_0 
2025-05-07T19:41:37.7255771Z   libuv              conda-forge/linux-aarch64::libuv-1.50.0-h86ecc28_0 
2025-05-07T19:41:37.7256186Z   libxcrypt          conda-forge/linux-aarch64::libxcrypt-4.4.36-h31becfc_1 
2025-05-07T19:41:37.7256613Z   libzlib            conda-forge/linux-aarch64::libzlib-1.3.1-h86ecc28_2 
2025-05-07T19:41:37.7257011Z   ncurses            conda-forge/linux-aarch64::ncurses-6.5-ha32ae93_3 
2025-05-07T19:41:37.7257409Z   ninja              conda-forge/linux-aarch64::ninja-1.12.1-h17cf362_1 
2025-05-07T19:41:37.7257798Z   openssl            conda-forge/linux-aarch64::openssl-3.5.0-hd08dc88_1 
2025-05-07T19:41:37.7258195Z   pcre2              conda-forge/linux-aarch64::pcre2-10.45-hf4ec17f_0 
2025-05-07T19:41:37.7258565Z   pip                conda-forge/noarch::pip-25.1.1-pyh8b19718_0 
2025-05-07T19:41:37.7258984Z   pkg-config         conda-forge/linux-aarch64::pkg-config-0.29.2-hce167ba_1009 
2025-05-07T19:41:37.7259453Z   python             conda-forge/linux-aarch64::python-3.9.22-h59a44ae_1_cpython 
2025-05-07T19:41:37.7259882Z   readline           conda-forge/linux-aarch64::readline-8.2-h8382b9d_2 
2025-05-07T19:41:37.7260277Z   rhash              conda-forge/linux-aarch64::rhash-1.4.5-h86ecc28_0 
2025-05-07T19:41:37.7260686Z   setuptools         conda-forge/noarch::setuptools-80.1.0-pyhff2d567_0 
2025-05-07T19:41:37.7261072Z   tk                 conda-forge/linux-aarch64::tk-8.6.13-h194ca79_0 
2025-05-07T19:41:37.7261677Z   tzdata             conda-forge/noarch::tzdata-2025b-h78e105d_0 
2025-05-07T19:41:37.7262039Z   wheel              conda-forge/noarch::wheel-0.37.1-pyhd8ed1ab_0 
2025-05-07T19:41:37.7262409Z   zstd               conda-forge/linux-aarch64::zstd-1.5.7-hbcf94c1_2 
2025-05-07T19:41:37.7262645Z 
2025-05-07T19:41:37.7262649Z 
2025-05-07T19:41:38.0406100Z Preparing transaction: ...working... done
2025-05-07T19:41:39.6605818Z Verifying transaction: ...working... done
2025-05-07T19:41:43.9553715Z Executing transaction: ...working... done
2025-05-07T19:41:44.0877750Z + echo CONDA_ENV=/__w/_temp/conda_environment_14891846315
2025-05-07T19:41:44.0878668Z + echo 'CONDA_RUN=conda run -p /__w/_temp/conda_environment_14891846315'
2025-05-07T19:41:44.1111353Z ##[group]Run set -euxo pipefail
2025-05-07T19:41:44.1111909Z [36;1mset -euxo pipefail[0m
2025-05-07T19:41:44.1112219Z [36;1mcat ".github/scripts/nova_dir.bash" >> "${BUILD_ENV_FILE}"[0m
2025-05-07T19:41:44.1112726Z shell: sh -e {0}
2025-05-07T19:41:44.1112918Z env:
2025-05-07T19:41:44.1113077Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:44.1113270Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:44.1113465Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:44.1113665Z   REF: 
2025-05-07T19:41:44.1113809Z   CU_VERSION: cu128
2025-05-07T19:41:44.1113992Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:44.1114189Z   ARCH: aarch64
2025-05-07T19:41:44.1114358Z   BUILD_TARGET: genai
2025-05-07T19:41:44.1114533Z   CHANNEL: nightly
2025-05-07T19:41:44.1114747Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:41:44.1115047Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T19:41:44.1115353Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T19:41:44.1115754Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T19:41:44.1116067Z ##[endgroup]
2025-05-07T19:41:44.2544381Z + cat .github/scripts/nova_dir.bash
2025-05-07T19:41:44.2748768Z ##[group]Run set -euxo pipefail
2025-05-07T19:41:44.2749109Z [36;1mset -euxo pipefail[0m
2025-05-07T19:41:44.2749365Z [36;1m# shellcheck disable=SC1090[0m
2025-05-07T19:41:44.2749612Z [36;1msource "${BUILD_ENV_FILE}"[0m
2025-05-07T19:41:44.2749860Z [36;1m# shellcheck disable=SC2086[0m
2025-05-07T19:41:44.2750123Z [36;1m${CONDA_RUN} ${PIP_INSTALL_TORCH} [0m
2025-05-07T19:41:44.2750453Z shell: sh -e {0}
2025-05-07T19:41:44.2750623Z env:
2025-05-07T19:41:44.2750778Z   PYTHON_VERSION: 3.9
2025-05-07T19:41:44.2750969Z   PACKAGE_TYPE: wheel
2025-05-07T19:41:44.2751166Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:41:44.2751370Z   REF: 
2025-05-07T19:41:44.2751515Z   CU_VERSION: cu128
2025-05-07T19:41:44.2751697Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:41:44.2752080Z   ARCH: aarch64
2025-05-07T19:41:44.2752249Z   BUILD_TARGET: genai
2025-05-07T19:41:44.2752423Z   CHANNEL: nightly
2025-05-07T19:41:44.2752641Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:41:44.2753013Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T19:41:44.2753320Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T19:41:44.2753690Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T19:41:44.2754000Z ##[endgroup]
2025-05-07T19:41:44.3126471Z + source /__w/_temp/build_env_14891846315
2025-05-07T19:41:44.3126779Z ++ export BUILD_VERSION=0.1.0.dev20250507
2025-05-07T19:41:44.3127030Z ++ BUILD_VERSION=0.1.0.dev20250507
2025-05-07T19:41:44.3127296Z ++ export CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T19:41:44.3127555Z ++ CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T19:41:44.3127793Z ++ export CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T19:41:44.3128048Z ++ CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T19:41:44.3128270Z ++ export FORCE_CUDA=1
2025-05-07T19:41:44.3128452Z ++ FORCE_CUDA=1
2025-05-07T19:41:44.3129270Z ++ export PATH=/opt/python/cp39-cp39/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:41:44.3130686Z ++ PATH=/opt/python/cp39-cp39/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:41:44.3132607Z ++ export PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:41:44.3134200Z ++ PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:41:44.3135353Z ++ export 'PIP_INSTALL_TORCH=pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T19:41:44.3136067Z ++ PIP_INSTALL_TORCH='pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T19:41:44.3136816Z ++ export PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T19:41:44.3137228Z ++ PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T19:41:44.3137524Z ++ export PYTORCH_VERSION_SUFFIX=
2025-05-07T19:41:44.3137758Z ++ PYTORCH_VERSION_SUFFIX=
2025-05-07T19:41:44.3138054Z ++ export 'TORCH_CUDA_ARCH_LIST=5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T19:41:44.3138451Z ++ TORCH_CUDA_ARCH_LIST='5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T19:41:44.3138760Z ++ export VERSION_SUFFIX=
2025-05-07T19:41:44.3138949Z ++ VERSION_SUFFIX=
2025-05-07T19:41:44.3139121Z ++ export WHEEL_DIR=
2025-05-07T19:41:44.3139290Z ++ WHEEL_DIR=
2025-05-07T19:41:44.3139465Z ++ FBGEMM_DIR=/__w/FBGEMM/FBGEMM
2025-05-07T19:41:44.3139731Z ++ export FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T19:41:44.3140047Z ++ FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T19:41:44.3140676Z +++ pwd
2025-05-07T19:41:44.3140876Z ++ working_dir=/__w/FBGEMM/FBGEMM
2025-05-07T19:41:44.3141225Z ++ [[ /__w/FBGEMM/FBGEMM == \/\_\_\w\/\F\B\G\E\M\M\/\F\B\G\E\M\M\/\p\y\t\o\r\c\h\/\F\B\G\E\M\M ]]
2025-05-07T19:41:44.3141584Z ++ export BUILD_FROM_NOVA=1
2025-05-07T19:41:44.3141785Z ++ BUILD_FROM_NOVA=1
2025-05-07T19:41:44.3141961Z ++ [[ cu128 == \c\u* ]]
2025-05-07T19:41:44.3142277Z ++ echo 'Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T19:41:44.3142681Z ++ [[ /__w/_temp/conda_environment_14891846315 != '' ]]
2025-05-07T19:41:44.3143127Z ++ export 'CONDA_RUN=conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T19:41:44.3143684Z ++ CONDA_RUN='conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T19:41:44.3144212Z ++ echo 'conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T19:41:44.3144586Z ++ [[ cu128 == \c\u\1\2\8 ]]
2025-05-07T19:41:44.3144853Z ++ export 'TORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T19:41:44.3145186Z ++ TORCH_CUDA_ARCH_LIST='7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T19:41:44.3145527Z ++ echo 'Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T19:41:44.3146238Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128
2025-05-07T19:41:44.3146979Z Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0
2025-05-07T19:41:44.3147433Z conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315
2025-05-07T19:41:44.3147827Z Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T19:41:46.0424267Z Looking in indexes: https://download.pytorch.org/whl/nightly/cu128
2025-05-07T19:41:46.2238838Z Collecting torch
2025-05-07T19:41:46.2326447Z   Downloading https://download.pytorch.org/whl/nightly/cu128/torch-2.8.0.dev20250507%2Bcu128-cp39-cp39-manylinux_2_28_aarch64.whl.metadata (30 kB)
2025-05-07T19:41:46.2939107Z Collecting filelock (from torch)
2025-05-07T19:41:46.2995377Z   Downloading https://download.pytorch.org/whl/nightly/filelock-3.16.1-py3-none-any.whl (16 kB)
2025-05-07T19:41:46.3364164Z Collecting typing-extensions>=4.10.0 (from torch)
2025-05-07T19:41:46.3426829Z   Downloading https://download.pytorch.org/whl/nightly/typing_extensions-4.12.2-py3-none-any.whl (37 kB)
2025-05-07T19:41:46.3777891Z Collecting sympy>=1.13.3 (from torch)
2025-05-07T19:41:46.3861924Z   Downloading https://download.pytorch.org/whl/nightly/sympy-1.13.3-py3-none-any.whl (6.2 MB)
2025-05-07T19:41:46.4248907Z      ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 6.2/6.2 MB 170.4 MB/s eta 0:00:00
2025-05-07T19:41:46.4754962Z Collecting networkx (from torch)
2025-05-07T19:41:46.4822833Z   Downloading https://download.pytorch.org/whl/nightly/networkx-3.2.1-py3-none-any.whl (1.6 MB)
2025-05-07T19:41:46.4971465Z      ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.6/1.6 MB 121.0 MB/s eta 0:00:00
2025-05-07T19:41:46.5381799Z Collecting jinja2 (from torch)
2025-05-07T19:41:46.5444513Z   Downloading https://download.pytorch.org/whl/nightly/jinja2-3.1.4-py3-none-any.whl (133 kB)
2025-05-07T19:41:46.5771830Z Collecting fsspec (from torch)
2025-05-07T19:41:46.5826706Z   Downloading https://download.pytorch.org/whl/nightly/fsspec-2024.10.0-py3-none-any.whl (179 kB)
2025-05-07T19:41:46.6782946Z Collecting pytorch-triton==3.3.0+git96316ce5 (from torch)
2025-05-07T19:41:46.6847017Z   Downloading https://download.pytorch.org/whl/nightly/pytorch_triton-3.3.0%2Bgit96316ce5-cp39-cp39-linux_aarch64.whl.metadata (1.6 kB)
2025-05-07T19:41:46.6923467Z Requirement already satisfied: setuptools>=40.8.0 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from pytorch-triton==3.3.0+git96316ce5->torch) (80.1.0)
2025-05-07T19:41:46.7305875Z Collecting mpmath<1.4,>=1.1.0 (from sympy>=1.13.3->torch)
2025-05-07T19:41:46.7365597Z   Downloading https://download.pytorch.org/whl/nightly/mpmath-1.3.0-py3-none-any.whl (536 kB)
2025-05-07T19:41:46.7469097Z      ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 536.2/536.2 kB 40.4 MB/s eta 0:00:00
2025-05-07T19:41:46.7911869Z Collecting MarkupSafe>=2.0 (from jinja2->torch)
2025-05-07T19:41:46.7981337Z   Downloading https://download.pytorch.org/whl/nightly/MarkupSafe-2.1.5-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (26 kB)
2025-05-07T19:41:46.8120853Z Downloading https://download.pytorch.org/whl/nightly/cu128/torch-2.8.0.dev20250507%2Bcu128-cp39-cp39-manylinux_2_28_aarch64.whl (2839.0 MB)
2025-05-07T19:42:20.2732500Z    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.8/2.8 GB 10.7 MB/s eta 0:00:00
2025-05-07T19:42:20.2795887Z Downloading https://download.pytorch.org/whl/nightly/pytorch_triton-3.3.0%2Bgit96316ce5-cp39-cp39-linux_aarch64.whl (142.0 MB)
2025-05-07T19:42:21.0380568Z    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 142.0/142.0 MB 187.7 MB/s eta 0:00:00
2025-05-07T19:42:23.4764802Z Installing collected packages: mpmath, typing-extensions, sympy, pytorch-triton, networkx, MarkupSafe, fsspec, filelock, jinja2, torch
2025-05-07T19:43:05.8857267Z 
2025-05-07T19:43:05.8893448Z Successfully installed MarkupSafe-2.1.5 filelock-3.16.1 fsspec-2024.10.0 jinja2-3.1.4 mpmath-1.3.0 networkx-3.2.1 pytorch-triton-3.3.0+git96316ce5 sympy-1.13.3 torch-2.8.0.dev20250507+cu128 typing-extensions-4.12.2
2025-05-07T19:43:05.8898010Z WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager, possibly rendering your system unusable. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv. Use the --root-user-action option if you know what you are doing and want to suppress this warning.
2025-05-07T19:43:06.3602677Z Prepare all required actions
2025-05-07T19:43:06.3603360Z Getting action download info
2025-05-07T19:43:06.5003920Z Download action repository 'actions/cache@v3' (SHA:2f8e54208210a422b2efd51efaa6bd6d7ca8920f)
2025-05-07T19:43:06.8285907Z ##[group]Run ./test-infra/.github/actions/run-script-with-cache
2025-05-07T19:43:06.8286230Z with:
2025-05-07T19:43:06.8286401Z   repository: pytorch/FBGEMM
2025-05-07T19:43:06.8286656Z   script: ../.github/scripts/nova_prescript.bash
2025-05-07T19:43:06.8287277Z   is_windows: disabled
2025-05-07T19:43:06.8287454Z env:
2025-05-07T19:43:06.8287604Z   PYTHON_VERSION: 3.9
2025-05-07T19:43:06.8287792Z   PACKAGE_TYPE: wheel
2025-05-07T19:43:06.8287987Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:43:06.8288190Z   REF: 
2025-05-07T19:43:06.8288333Z   CU_VERSION: cu128
2025-05-07T19:43:06.8288513Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:43:06.8288712Z   ARCH: aarch64
2025-05-07T19:43:06.8288883Z   BUILD_TARGET: genai
2025-05-07T19:43:06.8289102Z   CHANNEL: nightly
2025-05-07T19:43:06.8289315Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:43:06.8289618Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T19:43:06.8289925Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:06.8290281Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:06.8290590Z ##[endgroup]
2025-05-07T19:43:06.8317221Z ##[group]Run echo "today=$(/bin/date -u '+%Y%m%d')d" >> "${GITHUB_OUTPUT}"
2025-05-07T19:43:06.8317726Z [36;1mecho "today=$(/bin/date -u '+%Y%m%d')d" >> "${GITHUB_OUTPUT}"[0m
2025-05-07T19:43:06.8318181Z shell: bash --noprofile --norc -e -o pipefail {0}
2025-05-07T19:43:06.8318436Z env:
2025-05-07T19:43:06.8318593Z   PYTHON_VERSION: 3.9
2025-05-07T19:43:06.8318785Z   PACKAGE_TYPE: wheel
2025-05-07T19:43:06.8318979Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:43:06.8319180Z   REF: 
2025-05-07T19:43:06.8319325Z   CU_VERSION: cu128
2025-05-07T19:43:06.8319514Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:43:06.8319730Z   ARCH: aarch64
2025-05-07T19:43:06.8319901Z   BUILD_TARGET: genai
2025-05-07T19:43:06.8320079Z   CHANNEL: nightly
2025-05-07T19:43:06.8320296Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:43:06.8320596Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T19:43:06.8320903Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:06.8321262Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:06.8321579Z ##[endgroup]
2025-05-07T19:43:06.9860230Z ##[group]Run # Windows scripts needs cleanup on audio and vision, todo remove this once resolved
2025-05-07T19:43:06.9860863Z [36;1m# Windows scripts needs cleanup on audio and vision, todo remove this once resolved[0m
2025-05-07T19:43:06.9861280Z [36;1mif [[ disabled == 'disabled' ]]; then[0m
2025-05-07T19:43:06.9861553Z [36;1m  set -euxo pipefail[0m
2025-05-07T19:43:06.9861763Z [36;1mfi[0m
2025-05-07T19:43:06.9861932Z [36;1msource "${BUILD_ENV_FILE}"[0m
2025-05-07T19:43:06.9862181Z [36;1m[0m
2025-05-07T19:43:06.9862345Z [36;1mif [[ ! -f ${SCRIPT} ]]; then[0m
2025-05-07T19:43:06.9862733Z [36;1m  echo "::error::Specified script file (${SCRIPT}) not found, not going execute it"[0m
2025-05-07T19:43:06.9863105Z [36;1m  exit 1[0m
2025-05-07T19:43:06.9863272Z [36;1melse[0m
2025-05-07T19:43:06.9863455Z [36;1m  if [[ ${SCRIPT} == *.bat ]]; then[0m
2025-05-07T19:43:06.9863712Z [36;1m    ${CONDA_RUN} ${SCRIPT}[0m
2025-05-07T19:43:06.9863957Z [36;1m  else[0m
2025-05-07T19:43:06.9864137Z [36;1m    ${CONDA_RUN} bash ${SCRIPT}[0m
2025-05-07T19:43:06.9864373Z [36;1m  fi[0m
2025-05-07T19:43:06.9864560Z [36;1mfi[0m
2025-05-07T19:43:06.9864795Z shell: bash -l {0}
2025-05-07T19:43:06.9864960Z env:
2025-05-07T19:43:06.9865120Z   PYTHON_VERSION: 3.9
2025-05-07T19:43:06.9865302Z   PACKAGE_TYPE: wheel
2025-05-07T19:43:06.9865503Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T19:43:06.9865702Z   REF: 
2025-05-07T19:43:06.9865851Z   CU_VERSION: cu128
2025-05-07T19:43:06.9866431Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T19:43:06.9866645Z   ARCH: aarch64
2025-05-07T19:43:06.9866808Z   BUILD_TARGET: genai
2025-05-07T19:43:06.9866992Z   CHANNEL: nightly
2025-05-07T19:43:06.9867208Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:43:06.9867508Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T19:43:06.9867816Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:06.9868170Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:06.9868727Z   SCRIPT: ../.github/scripts/nova_prescript.bash
2025-05-07T19:43:06.9868987Z ##[endgroup]
2025-05-07T19:43:07.1468869Z + source /__w/_temp/build_env_14891846315
2025-05-07T19:43:07.1469196Z ++ export BUILD_VERSION=0.1.0.dev20250507
2025-05-07T19:43:07.1469476Z ++ BUILD_VERSION=0.1.0.dev20250507
2025-05-07T19:43:07.1469716Z ++ export CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T19:43:07.1469983Z ++ CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T19:43:07.1470267Z ++ export CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T19:43:07.1470529Z ++ CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T19:43:07.1470757Z ++ export FORCE_CUDA=1
2025-05-07T19:43:07.1470940Z ++ FORCE_CUDA=1
2025-05-07T19:43:07.1471927Z ++ export PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:43:07.1473572Z ++ PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:43:07.1475228Z ++ export PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:43:07.1476982Z ++ PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T19:43:07.1478226Z ++ export 'PIP_INSTALL_TORCH=pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T19:43:07.1478940Z ++ PIP_INSTALL_TORCH='pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T19:43:07.1479485Z ++ export PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T19:43:07.1479854Z ++ PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T19:43:07.1480157Z ++ export PYTORCH_VERSION_SUFFIX=
2025-05-07T19:43:07.1480385Z ++ PYTORCH_VERSION_SUFFIX=
2025-05-07T19:43:07.1480684Z ++ export 'TORCH_CUDA_ARCH_LIST=5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T19:43:07.1481083Z ++ TORCH_CUDA_ARCH_LIST='5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T19:43:07.1481403Z ++ export VERSION_SUFFIX=
2025-05-07T19:43:07.1481605Z ++ VERSION_SUFFIX=
2025-05-07T19:43:07.1481778Z ++ export WHEEL_DIR=
2025-05-07T19:43:07.1481958Z ++ WHEEL_DIR=
2025-05-07T19:43:07.1482131Z ++ FBGEMM_DIR=/__w/FBGEMM/FBGEMM
2025-05-07T19:43:07.1482405Z ++ export FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T19:43:07.1482726Z ++ FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T19:43:07.1483006Z +++ pwd
2025-05-07T19:43:07.1483209Z ++ working_dir=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T19:43:07.1483661Z ++ [[ /__w/FBGEMM/FBGEMM/pytorch/FBGEMM == \/\_\_\w\/\F\B\G\E\M\M\/\F\B\G\E\M\M\/\p\y\t\o\r\c\h\/\F\B\G\E\M\M ]]
2025-05-07T19:43:07.1484071Z ++ cd fbgemm_gpu
2025-05-07T19:43:07.1484245Z ++ export BUILD_FROM_NOVA=1
2025-05-07T19:43:07.1484452Z ++ BUILD_FROM_NOVA=1
2025-05-07T19:43:07.1484629Z ++ [[ cu128 == \c\u* ]]
2025-05-07T19:43:07.1484947Z ++ echo 'Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T19:43:07.1485936Z ++ [[ /__w/_temp/conda_environment_14891846315 != '' ]]
2025-05-07T19:43:07.1486425Z ++ export 'CONDA_RUN=conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T19:43:07.1486987Z ++ CONDA_RUN='conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T19:43:07.1487500Z ++ echo 'conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T19:43:07.1487874Z ++ [[ cu128 == \c\u\1\2\8 ]]
2025-05-07T19:43:07.1488310Z ++ export 'TORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T19:43:07.1488645Z ++ TORCH_CUDA_ARCH_LIST='7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T19:43:07.1488976Z ++ echo 'Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T19:43:07.1489316Z + [[ ! -f ../.github/scripts/nova_prescript.bash ]]
2025-05-07T19:43:07.1489628Z + [[ ../.github/scripts/nova_prescript.bash == *.bat ]]
2025-05-07T19:43:07.1490170Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 bash ../.github/scripts/nova_prescript.bash
2025-05-07T19:43:07.1490784Z Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0
2025-05-07T19:43:07.1491242Z conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:07.1491643Z Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T19:43:08.6206319Z [NOVA] Current working directory: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T19:43:09.0680795Z ################################################################################
2025-05-07T19:43:09.0681181Z Environment Variables:
2025-05-07T19:43:09.0699780Z CONDA_SHLVL=2
2025-05-07T19:43:09.0700812Z LD_LIBRARY_PATH=/opt/rh/gcc-toolset-11/root/usr/lib64:/opt/rh/gcc-toolset-11/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64:/opt/rh/gcc-toolset-14/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64/dyninst:/opt/rh/gcc-toolset-14/root/usr/lib/dyninst
2025-05-07T19:43:09.0701892Z CONDA_EXE=/opt/conda/bin/conda
2025-05-07T19:43:09.0702126Z KERN_NAME=Linux
2025-05-07T19:43:09.0702295Z ARCH=aarch64
2025-05-07T19:43:09.0702508Z MODULES_RUN_QUARANTINE=LD_LIBRARY_PATH LD_PRELOAD
2025-05-07T19:43:09.0702775Z LANG=en_US.UTF-8
2025-05-07T19:43:09.0702958Z HISTCONTROL=ignoredups
2025-05-07T19:43:09.0703164Z AUDITWHEEL_POLICY=manylinux_2_28
2025-05-07T19:43:09.0703387Z HOSTNAME=c0ec2cda8dde
2025-05-07T19:43:09.0703579Z GITHUB_REF_NAME=4066/merge
2025-05-07T19:43:09.0703826Z OLDPWD=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T19:43:09.0704159Z GITHUB_API_URL=https://api.github.com
2025-05-07T19:43:09.0704426Z PLATFORM_NAME_LC=linux-aarch64
2025-05-07T19:43:09.0704660Z GITHUB_REPOSITORY_OWNER_ID=21003710
2025-05-07T19:43:09.0704886Z CHANNEL=nightly
2025-05-07T19:43:09.0705271Z GITHUB_STEP_SUMMARY=/__w/_temp/_runner_file_commands/step_summary_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0705772Z CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T19:43:09.0706170Z GITHUB_ACTION_PATH=/__w/FBGEMM/FBGEMM/./test-infra/.github/actions/run-script-with-cache
2025-05-07T19:43:09.0706587Z GITHUB_RUN_ATTEMPT=1
2025-05-07T19:43:09.0706785Z GSETTINGS_SCHEMA_DIR_CONDA_BACKUP=
2025-05-07T19:43:09.0707018Z MACHINE_NAME_LC=aarch64
2025-05-07T19:43:09.0707220Z RUNNER_TOOL_CACHE=/__w/_tool
2025-05-07T19:43:09.0707578Z CONDA_RUN=conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.0708015Z CONDA_PREFIX=/__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.0708300Z BUILD_VERSION=0.1.0.dev20250507
2025-05-07T19:43:09.0708585Z DEVTOOLSET_ROOTPATH=/opt/rh/gcc-toolset-14/root
2025-05-07T19:43:09.0708896Z CONDA_ENV=/__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.0709174Z RUNNER_ENVIRONMENT=self-hosted
2025-05-07T19:43:09.0709399Z MACHINE_NAME=aarch64
2025-05-07T19:43:09.0709617Z GITHUB_REPOSITORY_OWNER=pytorch
2025-05-07T19:43:09.0709839Z GITHUB_ACTIONS=true
2025-05-07T19:43:09.0710010Z KERN_NAME_LC=linux
2025-05-07T19:43:09.0710935Z GITHUB_WORKFLOW_REF=pytorch/FBGEMM/.github/workflows/build_wheels_genai_linux_aarch64.yml@refs/pull/4066/merge
2025-05-07T19:43:09.0711469Z which_declare=declare -f
2025-05-07T19:43:09.0711662Z CI=true
2025-05-07T19:43:09.0712011Z MODULES_CMD=/usr/share/Modules/libexec/modulecmd.tcl
2025-05-07T19:43:09.0712287Z USER=root
2025-05-07T19:43:09.0712461Z GITHUB_HEAD_REF=bm/genai-rocm-oss-6
2025-05-07T19:43:09.0712695Z CONDA_PREFIX_1=/opt/conda
2025-05-07T19:43:09.0712896Z CU_VERSION=cu128
2025-05-07T19:43:09.0713158Z GITHUB_ACTOR=q10
2025-05-07T19:43:09.0713553Z GITHUB_ACTION_REF=
2025-05-07T19:43:09.0713733Z GITHUB_ACTION=__self_3
2025-05-07T19:43:09.0713929Z GITHUB_REF_PROTECTED=false
2025-05-07T19:43:09.0714125Z WHEEL_DIR=
2025-05-07T19:43:09.0715117Z ***
2025-05-07T19:43:09.0715285Z VERSION_SUFFIX=
2025-05-07T19:43:09.0715454Z HOME=/github/home
2025-05-07T19:43:09.0715650Z CONDA_PYTHON_EXE=/opt/conda/bin/python
2025-05-07T19:43:09.0716064Z GITHUB_STATE=/__w/_temp/_runner_file_commands/save_state_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0716538Z ARTIFACT_NAME=pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:43:09.0716821Z CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T19:43:09.0717046Z GITHUB_ACTION_REPOSITORY=
2025-05-07T19:43:09.0717255Z GITHUB_REF_TYPE=branch
2025-05-07T19:43:09.0717438Z RUNNER_TEMP=/__w/_temp
2025-05-07T19:43:09.0717627Z BUILD_FROM_NOVA=1
2025-05-07T19:43:09.0717804Z GITHUB_RETENTION_DAYS=90
2025-05-07T19:43:09.0717985Z REF=
2025-05-07T19:43:09.0718289Z GITHUB_ENV=/__w/_temp/_runner_file_commands/set_env_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0718700Z SSL_CERT_FILE=/opt/_internal/certs.pem
2025-05-07T19:43:09.0718945Z RUNNER_WORKSPACE=/__w/FBGEMM
2025-05-07T19:43:09.0719167Z GITHUB_REF=refs/pull/4066/merge
2025-05-07T19:43:09.0719429Z GITHUB_SHA=a2f4c52051596e74bc8c16e3d2867a4ecdd271e0
2025-05-07T19:43:09.0719848Z GSETTINGS_SCHEMA_DIR=/__w/_temp/conda_environment_14891846315/share/glib-2.0/schemas
2025-05-07T19:43:09.0720253Z GITHUB_REPOSITORY_ID=150154628
2025-05-07T19:43:09.0720481Z AUDITWHEEL_ARCH=aarch64
2025-05-07T19:43:09.0720686Z GITHUB_RUN_ID=14891846315
2025-05-07T19:43:09.0720905Z AUDITWHEEL_PLAT=manylinux_2_28_aarch64
2025-05-07T19:43:09.0721187Z FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T19:43:09.0721488Z BUILD_ENV_FILE=/__w/_temp/build_env_14891846315
2025-05-07T19:43:09.0721757Z RUNNER_ARCH=ARM64
2025-05-07T19:43:09.0721975Z GITHUB_SERVER_URL=https://github.com
2025-05-07T19:43:09.0722436Z PIP_INSTALL_TORCH=pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128
2025-05-07T19:43:09.0722902Z REPOSITORY=pytorch/FBGEMM
2025-05-07T19:43:09.0723104Z GITHUB_ACTOR_ID=255046
2025-05-07T19:43:09.0723299Z LOADEDMODULES=
2025-05-07T19:43:09.0723476Z UPLOAD_TO_BASE_BUCKET=no
2025-05-07T19:43:09.0723710Z GITHUB_EVENT_PATH=/github/workflow/event.json
2025-05-07T19:43:09.0724063Z CONDA_PROMPT_MODIFIER=(/__w/_temp/conda_environment_14891846315) 
2025-05-07T19:43:09.0724404Z PLATFORM_NAME=Linux-aarch64
2025-05-07T19:43:09.0724614Z PACKAGE_TYPE=wheel
2025-05-07T19:43:09.0724856Z GITHUB_GRAPHQL_URL=https://api.github.com/graphql
2025-05-07T19:43:09.0725147Z MAIL=/var/spool/mail/root
2025-05-07T19:43:09.0725339Z RUNNER_OS=Linux
2025-05-07T19:43:09.0725513Z GITHUB_BASE_REF=main
2025-05-07T19:43:09.0725685Z FORCE_CUDA=1
2025-05-07T19:43:09.0725879Z TORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T19:43:09.0726293Z GITHUB_PATH=/__w/_temp/_runner_file_commands/add_path_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0726684Z GITHUB_JOB=build
2025-05-07T19:43:09.0726869Z BUILD_TARGET=genai
2025-05-07T19:43:09.0727053Z RUNNER_NAME=i-050aa4155d8879248
2025-05-07T19:43:09.0727263Z PYTHON_VERSION=3.9
2025-05-07T19:43:09.0727440Z CONDA_ROOT=/opt/conda
2025-05-07T19:43:09.0727807Z GITHUB_OUTPUT=/__w/_temp/_runner_file_commands/set_output_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0728227Z PYTORCH_VERSION_SUFFIX=
2025-05-07T19:43:09.0728413Z SHLVL=3
2025-05-07T19:43:09.0728560Z LANGUAGE=en_US.UTF-8
2025-05-07T19:43:09.0728761Z GITHUB_REPOSITORY=pytorch/FBGEMM
2025-05-07T19:43:09.0728974Z MANPATH=:
2025-05-07T19:43:09.0729504Z SCRIPT=../.github/scripts/nova_prescript.bash
2025-05-07T19:43:09.0729798Z GITHUB_EVENT_NAME=pull_request
2025-05-07T19:43:09.0730262Z MODULEPATH=/etc/scl/modulefiles:/usr/share/Modules/modulefiles:/etc/modulefiles:/usr/share/modulefiles
2025-05-07T19:43:09.0730730Z LOGNAME=root
2025-05-07T19:43:09.0731116Z MODULEPATH_modshare=/usr/share/Modules/modulefiles:2:/etc/modulefiles:2:/usr/share/modulefiles:2
2025-05-07T19:43:09.0731561Z GITHUB_RUN_NUMBER=1263
2025-05-07T19:43:09.0731952Z GITHUB_WORKFLOW=Build FBGEMM GenAI Aarch64 Linux Wheels
2025-05-07T19:43:09.0733281Z PATH=/__w/_temp/conda_environment_14891846315/bin:/opt/conda/condabin:/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/sbin:/sbin
2025-05-07T19:43:09.0734629Z GITHUB_WORKFLOW_SHA=6060cd4b5f971680caecdcc657faccb5720d1c3e
2025-05-07T19:43:09.0734998Z DEBUGINFOD_URLS=https://debuginfod.centos.org/ 
2025-05-07T19:43:09.0735292Z GITHUB_WORKSPACE=/__w/FBGEMM/FBGEMM
2025-05-07T19:43:09.0735532Z MODULESHOME=/usr/share/Modules
2025-05-07T19:43:09.0735779Z PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
2025-05-07T19:43:09.0736096Z CONDA_DEFAULT_ENV=/__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.0736418Z GITHUB_TRIGGERING_ACTOR=q10
2025-05-07T19:43:09.0737579Z HISTSIZE=1000
2025-05-07T19:43:09.0737853Z PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T19:43:09.0738153Z LESSOPEN=||/usr/bin/lesspipe.sh %s
2025-05-07T19:43:09.0738403Z BASH_FUNC_which%%=() {  ( alias;
2025-05-07T19:43:09.0738855Z  eval ${which_declare} ) | /usr/bin/which --tty-only --read-alias --read-functions --show-tilde --show-dot $@
2025-05-07T19:43:09.0739292Z }
2025-05-07T19:43:09.0739461Z BASH_FUNC_module%%=() {  unset _mlshdbg;
2025-05-07T19:43:09.0739739Z  if [ "${MODULES_SILENT_SHELL_DEBUG:-0}" = '1' ]; then
2025-05-07T19:43:09.0740100Z  case "$-" in 
2025-05-07T19:43:09.0740262Z  *v*x*)
2025-05-07T19:43:09.0740404Z  set +vx;
2025-05-07T19:43:09.0740558Z  _mlshdbg='vx'
2025-05-07T19:43:09.0740715Z  ;;
2025-05-07T19:43:09.0740855Z  *v*)
2025-05-07T19:43:09.0740997Z  set +v;
2025-05-07T19:43:09.0741150Z  _mlshdbg='v'
2025-05-07T19:43:09.0741303Z  ;;
2025-05-07T19:43:09.0741441Z  *x*)
2025-05-07T19:43:09.0741581Z  set +x;
2025-05-07T19:43:09.0741722Z  _mlshdbg='x'
2025-05-07T19:43:09.0741877Z  ;;
2025-05-07T19:43:09.0742012Z  *)
2025-05-07T19:43:09.0742155Z  _mlshdbg=''
2025-05-07T19:43:09.0742307Z  ;;
2025-05-07T19:43:09.0742438Z  esac;
2025-05-07T19:43:09.0742584Z  fi;
2025-05-07T19:43:09.0742727Z  unset _mlre _mlIFS;
2025-05-07T19:43:09.0742925Z  if [ -n "${IFS+x}" ]; then
2025-05-07T19:43:09.0743115Z  _mlIFS=$IFS;
2025-05-07T19:43:09.0743275Z  fi;
2025-05-07T19:43:09.0743413Z  IFS=' ';
2025-05-07T19:43:09.0743593Z  for _mlv in ${MODULES_RUN_QUARANTINE:-};
2025-05-07T19:43:09.0743827Z  do
2025-05-07T19:43:09.0744061Z  if [ "${_mlv}" = "${_mlv##*[!A-Za-z0-9_]}" -a "${_mlv}" = "${_mlv#[0-9]}" ]; then
2025-05-07T19:43:09.0744390Z  if [ -n "`eval 'echo ${'$_mlv'+x}'`" ]; then
2025-05-07T19:43:09.0744696Z  _mlre="${_mlre:-}${_mlv}_modquar='`eval 'echo ${'$_mlv'}'`' ";
2025-05-07T19:43:09.0744977Z  fi;
2025-05-07T19:43:09.0745142Z  _mlrv="MODULES_RUNENV_${_mlv}";
2025-05-07T19:43:09.0745409Z  _mlre="${_mlre:-}${_mlv}='`eval 'echo ${'$_mlrv':-}'`' ";
2025-05-07T19:43:09.0745690Z  fi;
2025-05-07T19:43:09.0745858Z  done;
2025-05-07T19:43:09.0746030Z  if [ -n "${_mlre:-}" ]; then
2025-05-07T19:43:09.0746411Z  eval `eval ${_mlre} /usr/bin/tclsh /usr/share/Modules/libexec/modulecmd.tcl bash '"$@"'`;
2025-05-07T19:43:09.0746799Z  else
2025-05-07T19:43:09.0747070Z  eval `/usr/bin/tclsh /usr/share/Modules/libexec/modulecmd.tcl bash "$@"`;
2025-05-07T19:43:09.0747415Z  fi;
2025-05-07T19:43:09.0747558Z  _mlstatus=$?;
2025-05-07T19:43:09.0747741Z  if [ -n "${_mlIFS+x}" ]; then
2025-05-07T19:43:09.0747943Z  IFS=$_mlIFS;
2025-05-07T19:43:09.0748096Z  else
2025-05-07T19:43:09.0748737Z  unset IFS;
2025-05-07T19:43:09.0748900Z  fi;
2025-05-07T19:43:09.0749060Z  unset _mlre _mlv _mlrv _mlIFS;
2025-05-07T19:43:09.0749277Z  if [ -n "${_mlshdbg:-}" ]; then
2025-05-07T19:43:09.0749490Z  set -$_mlshdbg;
2025-05-07T19:43:09.0749651Z  fi;
2025-05-07T19:43:09.0749796Z  unset _mlshdbg;
2025-05-07T19:43:09.0749958Z  return $_mlstatus
2025-05-07T19:43:09.0750131Z }
2025-05-07T19:43:09.0750316Z BASH_FUNC_switchml%%=() {  typeset swfound=1;
2025-05-07T19:43:09.0750797Z  if [ "${MODULES_USE_COMPAT_VERSION:-0}" = '1' ]; then
2025-05-07T19:43:09.0751066Z  typeset swname='main';
2025-05-07T19:43:09.0751316Z  if [ -e /usr/share/Modules/libexec/modulecmd.tcl ]; then
2025-05-07T19:43:09.0751603Z  typeset swfound=0;
2025-05-07T19:43:09.0751997Z  unset MODULES_USE_COMPAT_VERSION;
2025-05-07T19:43:09.0752215Z  fi;
2025-05-07T19:43:09.0752354Z  else
2025-05-07T19:43:09.0752519Z  typeset swname='compatibility';
2025-05-07T19:43:09.0752811Z  if [ -e /usr/share/Modules/libexec/modulecmd-compat ]; then
2025-05-07T19:43:09.0753114Z  typeset swfound=0;
2025-05-07T19:43:09.0753304Z  MODULES_USE_COMPAT_VERSION=1;
2025-05-07T19:43:09.0753527Z  export MODULES_USE_COMPAT_VERSION;
2025-05-07T19:43:09.0753756Z  fi;
2025-05-07T19:43:09.0753893Z  fi;
2025-05-07T19:43:09.0754061Z  if [ $swfound -eq 0 ]; then
2025-05-07T19:43:09.0754308Z  echo "Switching to Modules $swname version";
2025-05-07T19:43:09.0754589Z  source /usr/share/Modules/init/bash;
2025-05-07T19:43:09.0754826Z  else
2025-05-07T19:43:09.0755088Z  echo "Cannot switch to Modules $swname version, command not found";
2025-05-07T19:43:09.0755436Z  return 1;
2025-05-07T19:43:09.0755591Z  fi
2025-05-07T19:43:09.0755727Z }
2025-05-07T19:43:09.0755938Z BASH_FUNC_scl%%=() {  if [ "$1" = "load" -o "$1" = "unload" ]; then
2025-05-07T19:43:09.0756242Z  eval "module $@";
2025-05-07T19:43:09.0756400Z  else
2025-05-07T19:43:09.0756546Z  /usr/bin/scl "$@";
2025-05-07T19:43:09.0756709Z  fi
2025-05-07T19:43:09.0756838Z }
2025-05-07T19:43:09.0756993Z BASH_FUNC_ml%%=() {  module ml "$@"
2025-05-07T19:43:09.0757210Z }
2025-05-07T19:43:09.0757355Z _=/usr/bin/printenv
2025-05-07T19:43:09.0757552Z ################################################################################
2025-05-07T19:43:09.0757836Z ################################################################################
2025-05-07T19:43:09.0758082Z # Print System Info
2025-05-07T19:43:09.0758247Z #
2025-05-07T19:43:09.0758550Z # [2025-05-07T19:43:09.072Z] + print_system_info 
2025-05-07T19:43:09.0758842Z ################################################################################
2025-05-07T19:43:09.0759032Z 
2025-05-07T19:43:09.0759125Z ################################################################################
2025-05-07T19:43:09.0759412Z [INFO] Printing environment variables ...
2025-05-07T19:43:09.0759649Z + printenv
2025-05-07T19:43:09.0759746Z 
2025-05-07T19:43:09.0759811Z CONDA_SHLVL=2
2025-05-07T19:43:09.0760778Z LD_LIBRARY_PATH=/opt/rh/gcc-toolset-11/root/usr/lib64:/opt/rh/gcc-toolset-11/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64:/opt/rh/gcc-toolset-14/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64/dyninst:/opt/rh/gcc-toolset-14/root/usr/lib/dyninst
2025-05-07T19:43:09.0761818Z CONDA_EXE=/opt/conda/bin/conda
2025-05-07T19:43:09.0762025Z KERN_NAME=Linux
2025-05-07T19:43:09.0762192Z ARCH=aarch64
2025-05-07T19:43:09.0762421Z MODULES_RUN_QUARANTINE=LD_LIBRARY_PATH LD_PRELOAD
2025-05-07T19:43:09.0762689Z LANG=en_US.UTF-8
2025-05-07T19:43:09.0762869Z HISTCONTROL=ignoredups
2025-05-07T19:43:09.0763084Z AUDITWHEEL_POLICY=manylinux_2_28
2025-05-07T19:43:09.0763304Z HOSTNAME=c0ec2cda8dde
2025-05-07T19:43:09.0763502Z GITHUB_REF_NAME=4066/merge
2025-05-07T19:43:09.0763746Z OLDPWD=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T19:43:09.0764068Z GITHUB_API_URL=https://api.github.com
2025-05-07T19:43:09.0764321Z PLATFORM_NAME_LC=linux-aarch64
2025-05-07T19:43:09.0764548Z GITHUB_REPOSITORY_OWNER_ID=21003710
2025-05-07T19:43:09.0764770Z CHANNEL=nightly
2025-05-07T19:43:09.0765433Z GITHUB_STEP_SUMMARY=/__w/_temp/_runner_file_commands/step_summary_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0765906Z CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T19:43:09.0766280Z GITHUB_ACTION_PATH=/__w/FBGEMM/FBGEMM/./test-infra/.github/actions/run-script-with-cache
2025-05-07T19:43:09.0766691Z GITHUB_RUN_ATTEMPT=1
2025-05-07T19:43:09.0766892Z GSETTINGS_SCHEMA_DIR_CONDA_BACKUP=
2025-05-07T19:43:09.0767122Z MACHINE_NAME_LC=aarch64
2025-05-07T19:43:09.0767317Z RUNNER_TOOL_CACHE=/__w/_tool
2025-05-07T19:43:09.0767854Z CONDA_RUN=conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.0768290Z CONDA_PREFIX=/__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.0768577Z BUILD_VERSION=0.1.0.dev20250507
2025-05-07T19:43:09.0768830Z DEVTOOLSET_ROOTPATH=/opt/rh/gcc-toolset-14/root
2025-05-07T19:43:09.0769139Z CONDA_ENV=/__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.0769422Z RUNNER_ENVIRONMENT=self-hosted
2025-05-07T19:43:09.0769640Z MACHINE_NAME=aarch64
2025-05-07T19:43:09.0769841Z GITHUB_REPOSITORY_OWNER=pytorch
2025-05-07T19:43:09.0770060Z GITHUB_ACTIONS=true
2025-05-07T19:43:09.0770229Z KERN_NAME_LC=linux
2025-05-07T19:43:09.0770664Z GITHUB_WORKFLOW_REF=pytorch/FBGEMM/.github/workflows/build_wheels_genai_linux_aarch64.yml@refs/pull/4066/merge
2025-05-07T19:43:09.0771162Z which_declare=declare -f
2025-05-07T19:43:09.0771346Z CI=true
2025-05-07T19:43:09.0771552Z MODULES_CMD=/usr/share/Modules/libexec/modulecmd.tcl
2025-05-07T19:43:09.0771825Z USER=root
2025-05-07T19:43:09.0771996Z GITHUB_HEAD_REF=bm/genai-rocm-oss-6
2025-05-07T19:43:09.0772237Z CONDA_PREFIX_1=/opt/conda
2025-05-07T19:43:09.0772465Z CU_VERSION=cu128
2025-05-07T19:43:09.0772639Z GITHUB_ACTOR=q10
2025-05-07T19:43:09.0772806Z GITHUB_ACTION_REF=
2025-05-07T19:43:09.0772984Z GITHUB_ACTION=__self_3
2025-05-07T19:43:09.0773184Z GITHUB_REF_PROTECTED=false
2025-05-07T19:43:09.0773376Z WHEEL_DIR=
2025-05-07T19:43:09.0773742Z ***
2025-05-07T19:43:09.0773895Z VERSION_SUFFIX=
2025-05-07T19:43:09.0774059Z HOME=/github/home
2025-05-07T19:43:09.0774257Z CONDA_PYTHON_EXE=/opt/conda/bin/python
2025-05-07T19:43:09.0774671Z GITHUB_STATE=/__w/_temp/_runner_file_commands/save_state_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0775118Z ARTIFACT_NAME=pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T19:43:09.0775393Z CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T19:43:09.0775613Z GITHUB_ACTION_REPOSITORY=
2025-05-07T19:43:09.0775829Z GITHUB_REF_TYPE=branch
2025-05-07T19:43:09.0776031Z RUNNER_TEMP=/__w/_temp
2025-05-07T19:43:09.0776222Z BUILD_FROM_NOVA=1
2025-05-07T19:43:09.0776435Z GITHUB_RETENTION_DAYS=90
2025-05-07T19:43:09.0776626Z REF=
2025-05-07T19:43:09.0776939Z GITHUB_ENV=/__w/_temp/_runner_file_commands/set_env_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0777340Z SSL_CERT_FILE=/opt/_internal/certs.pem
2025-05-07T19:43:09.0777591Z RUNNER_WORKSPACE=/__w/FBGEMM
2025-05-07T19:43:09.0777804Z GITHUB_REF=refs/pull/4066/merge
2025-05-07T19:43:09.0778061Z GITHUB_SHA=a2f4c52051596e74bc8c16e3d2867a4ecdd271e0
2025-05-07T19:43:09.0778476Z GSETTINGS_SCHEMA_DIR=/__w/_temp/conda_environment_14891846315/share/glib-2.0/schemas
2025-05-07T19:43:09.0778866Z GITHUB_REPOSITORY_ID=150154628
2025-05-07T19:43:09.0779084Z AUDITWHEEL_ARCH=aarch64
2025-05-07T19:43:09.0779274Z GITHUB_RUN_ID=14891846315
2025-05-07T19:43:09.0779491Z AUDITWHEEL_PLAT=manylinux_2_28_aarch64
2025-05-07T19:43:09.0779771Z FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T19:43:09.0780082Z BUILD_ENV_FILE=/__w/_temp/build_env_14891846315
2025-05-07T19:43:09.0780337Z RUNNER_ARCH=ARM64
2025-05-07T19:43:09.0780541Z GITHUB_SERVER_URL=https://github.com
2025-05-07T19:43:09.0780998Z PIP_INSTALL_TORCH=pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128
2025-05-07T19:43:09.0781462Z REPOSITORY=pytorch/FBGEMM
2025-05-07T19:43:09.0781668Z GITHUB_ACTOR_ID=255046
2025-05-07T19:43:09.0781858Z LOADEDMODULES=
2025-05-07T19:43:09.0782033Z UPLOAD_TO_BASE_BUCKET=no
2025-05-07T19:43:09.0782268Z GITHUB_EVENT_PATH=/github/workflow/event.json
2025-05-07T19:43:09.0782924Z CONDA_PROMPT_MODIFIER=(/__w/_temp/conda_environment_14891846315) 
2025-05-07T19:43:09.0783274Z PLATFORM_NAME=Linux-aarch64
2025-05-07T19:43:09.0783485Z PACKAGE_TYPE=wheel
2025-05-07T19:43:09.0783708Z GITHUB_GRAPHQL_URL=https://api.github.com/graphql
2025-05-07T19:43:09.0783995Z MAIL=/var/spool/mail/root
2025-05-07T19:43:09.0784191Z RUNNER_OS=Linux
2025-05-07T19:43:09.0784363Z GITHUB_BASE_REF=main
2025-05-07T19:43:09.0809087Z FORCE_CUDA=1
2025-05-07T19:43:09.0809701Z TORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T19:43:09.0810147Z GITHUB_PATH=/__w/_temp/_runner_file_commands/add_path_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0810549Z GITHUB_JOB=build
2025-05-07T19:43:09.0810720Z BUILD_TARGET=genai
2025-05-07T19:43:09.0810912Z RUNNER_NAME=i-050aa4155d8879248
2025-05-07T19:43:09.0811126Z PYTHON_VERSION=3.9
2025-05-07T19:43:09.0811307Z CONDA_ROOT=/opt/conda
2025-05-07T19:43:09.0811669Z GITHUB_OUTPUT=/__w/_temp/_runner_file_commands/set_output_90dd0bd4-f986-4c3d-900c-a49abafc68ca
2025-05-07T19:43:09.0812101Z PYTORCH_VERSION_SUFFIX=
2025-05-07T19:43:09.0812286Z SHLVL=3
2025-05-07T19:43:09.0812440Z LANGUAGE=en_US.UTF-8
2025-05-07T19:43:09.0812640Z GITHUB_REPOSITORY=pytorch/FBGEMM
2025-05-07T19:43:09.0812861Z MANPATH=:
2025-05-07T19:43:09.0813054Z SCRIPT=../.github/scripts/nova_prescript.bash
2025-05-07T19:43:09.0813331Z GITHUB_EVENT_NAME=pull_request
2025-05-07T19:43:09.0813795Z MODULEPATH=/etc/scl/modulefiles:/usr/share/Modules/modulefiles:/etc/modulefiles:/usr/share/modulefiles
2025-05-07T19:43:09.0814267Z LOGNAME=root
2025-05-07T19:43:09.0814647Z MODULEPATH_modshare=/usr/share/Modules/modulefiles:2:/etc/modulefiles:2:/usr/share/modulefiles:2
2025-05-07T19:43:09.0815092Z GITHUB_RUN_NUMBER=1263
2025-05-07T19:43:09.0815350Z GITHUB_WORKFLOW=Build FBGEMM GenAI Aarch64 Linux Wheels
2025-05-07T19:43:09.0816691Z PATH=/__w/_temp/conda_environment_14891846315/bin:/opt/conda/condabin:/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/sbin:/sbin
2025-05-07T19:43:09.0818220Z GITHUB_WORKFLOW_SHA=6060cd4b5f971680caecdcc657faccb5720d1c3e
2025-05-07T19:43:09.0818603Z DEBUGINFOD_URLS=https://debuginfod.centos.org/ 
2025-05-07T19:43:09.0818896Z GITHUB_WORKSPACE=/__w/FBGEMM/FBGEMM
2025-05-07T19:43:09.0819136Z MODULESHOME=/usr/share/Modules
2025-05-07T19:43:09.0819378Z PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
2025-05-07T19:43:09.0819691Z CONDA_DEFAULT_ENV=/__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.0819996Z GITHUB_TRIGGERING_ACTOR=q10
2025-05-07T19:43:09.0820193Z HISTSIZE=1000
2025-05-07T19:43:09.0820422Z PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T19:43:09.0820720Z LESSOPEN=||/usr/bin/lesspipe.sh %s
2025-05-07T19:43:09.0820955Z BASH_FUNC_which%%=() {  ( alias;
2025-05-07T19:43:09.0821404Z  eval ${which_declare} ) | /usr/bin/which --tty-only --read-alias --read-functions --show-tilde --show-dot $@
2025-05-07T19:43:09.0821850Z }
2025-05-07T19:43:09.0822009Z BASH_FUNC_module%%=() {  unset _mlshdbg;
2025-05-07T19:43:09.0822300Z  if [ "${MODULES_SILENT_SHELL_DEBUG:-0}" = '1' ]; then
2025-05-07T19:43:09.0822574Z  case "$-" in 
2025-05-07T19:43:09.0822731Z  *v*x*)
2025-05-07T19:43:09.0822868Z  set +vx;
2025-05-07T19:43:09.0823015Z  _mlshdbg='vx'
2025-05-07T19:43:09.0823164Z  ;;
2025-05-07T19:43:09.0823301Z  *v*)
2025-05-07T19:43:09.0823443Z  set +v;
2025-05-07T19:43:09.0823589Z  _mlshdbg='v'
2025-05-07T19:43:09.0823742Z  ;;
2025-05-07T19:43:09.0823873Z  *x*)
2025-05-07T19:43:09.0824013Z  set +x;
2025-05-07T19:43:09.0824153Z  _mlshdbg='x'
2025-05-07T19:43:09.0824305Z  ;;
2025-05-07T19:43:09.0824433Z  *)
2025-05-07T19:43:09.0824576Z  _mlshdbg=''
2025-05-07T19:43:09.0824724Z  ;;
2025-05-07T19:43:09.0824861Z  esac;
2025-05-07T19:43:09.0824995Z  fi;
2025-05-07T19:43:09.0825146Z  unset _mlre _mlIFS;
2025-05-07T19:43:09.0825335Z  if [ -n "${IFS+x}" ]; then
2025-05-07T19:43:09.0825819Z  _mlIFS=$IFS;
2025-05-07T19:43:09.0825989Z  fi;
2025-05-07T19:43:09.0826128Z  IFS=' ';
2025-05-07T19:43:09.0826303Z  for _mlv in ${MODULES_RUN_QUARANTINE:-};
2025-05-07T19:43:09.0826539Z  do
2025-05-07T19:43:09.0826763Z  if [ "${_mlv}" = "${_mlv##*[!A-Za-z0-9_]}" -a "${_mlv}" = "${_mlv#[0-9]}" ]; then
2025-05-07T19:43:09.0827090Z  if [ -n "`eval 'echo ${'$_mlv'+x}'`" ]; then
2025-05-07T19:43:09.0827396Z  _mlre="${_mlre:-}${_mlv}_modquar='`eval 'echo ${'$_mlv'}'`' ";
2025-05-07T19:43:09.0827807Z  fi;
2025-05-07T19:43:09.0827965Z  _mlrv="MODULES_RUNENV_${_mlv}";
2025-05-07T19:43:09.0828225Z  _mlre="${_mlre:-}${_mlv}='`eval 'echo ${'$_mlrv':-}'`' ";
2025-05-07T19:43:09.0828487Z  fi;
2025-05-07T19:43:09.0828619Z  done;
2025-05-07T19:43:09.0828781Z  if [ -n "${_mlre:-}" ]; then
2025-05-07T19:43:09.0829151Z  eval `eval ${_mlre} /usr/bin/tclsh /usr/share/Modules/libexec/modulecmd.tcl bash '"$@"'`;
2025-05-07T19:43:09.0829535Z  else
2025-05-07T19:43:09.0829812Z  eval `/usr/bin/tclsh /usr/share/Modules/libexec/modulecmd.tcl bash "$@"`;
2025-05-07T19:43:09.0830152Z  fi;
2025-05-07T19:43:09.0830298Z  _mlstatus=$?;
2025-05-07T19:43:09.0830470Z  if [ -n "${_mlIFS+x}" ]; then
2025-05-07T19:43:09.0830671Z  IFS=$_mlIFS;
2025-05-07T19:43:09.0830820Z  else
2025-05-07T19:43:09.0830964Z  unset IFS;
2025-05-07T19:43:09.0831106Z  fi;
2025-05-07T19:43:09.0831261Z  unset _mlre _mlv _mlrv _mlIFS;
2025-05-07T19:43:09.0831481Z  if [ -n "${_mlshdbg:-}" ]; then
2025-05-07T19:43:09.0831868Z  set -$_mlshdbg;
2025-05-07T19:43:09.0832047Z  fi;
2025-05-07T19:43:09.0832181Z  unset _mlshdbg;
2025-05-07T19:43:09.0832345Z  return $_mlstatus
2025-05-07T19:43:09.0832506Z }
2025-05-07T19:43:09.0832684Z BASH_FUNC_switchml%%=() {  typeset swfound=1;
2025-05-07T19:43:09.0832975Z  if [ "${MODULES_USE_COMPAT_VERSION:-0}" = '1' ]; then
2025-05-07T19:43:09.0833243Z  typeset swname='main';
2025-05-07T19:43:09.0833487Z  if [ -e /usr/share/Modules/libexec/modulecmd.tcl ]; then
2025-05-07T19:43:09.0833772Z  typeset swfound=0;
2025-05-07T19:43:09.0833967Z  unset MODULES_USE_COMPAT_VERSION;
2025-05-07T19:43:09.0834182Z  fi;
2025-05-07T19:43:09.0834315Z  else
2025-05-07T19:43:09.0834490Z  typeset swname='compatibility';
2025-05-07T19:43:09.0834783Z  if [ -e /usr/share/Modules/libexec/modulecmd-compat ]; then
2025-05-07T19:43:09.0835076Z  typeset swfound=0;
2025-05-07T19:43:09.0835272Z  MODULES_USE_COMPAT_VERSION=1;
2025-05-07T19:43:09.0835497Z  export MODULES_USE_COMPAT_VERSION;
2025-05-07T19:43:09.0835713Z  fi;
2025-05-07T19:43:09.0835853Z  fi;
2025-05-07T19:43:09.0836007Z  if [ $swfound -eq 0 ]; then
2025-05-07T19:43:09.0836245Z  echo "Switching to Modules $swname version";
2025-05-07T19:43:09.0836759Z  source /usr/share/Modules/init/bash;
2025-05-07T19:43:09.0837036Z  else
2025-05-07T19:43:09.0837287Z  echo "Cannot switch to Modules $swname version, command not found";
2025-05-07T19:43:09.0837608Z  return 1;
2025-05-07T19:43:09.0837750Z  fi
2025-05-07T19:43:09.0837885Z }
2025-05-07T19:43:09.0838095Z BASH_FUNC_scl%%=() {  if [ "$1" = "load" -o "$1" = "unload" ]; then
2025-05-07T19:43:09.0838401Z  eval "module $@";
2025-05-07T19:43:09.0838564Z  else
2025-05-07T19:43:09.0838711Z  /usr/bin/scl "$@";
2025-05-07T19:43:09.0838868Z  fi
2025-05-07T19:43:09.0839003Z }
2025-05-07T19:43:09.0839153Z BASH_FUNC_ml%%=() {  module ml "$@"
2025-05-07T19:43:09.0839366Z }
2025-05-07T19:43:09.0839507Z _=/usr/bin/printenv
2025-05-07T19:43:09.0839629Z 
2025-05-07T19:43:09.0839725Z ################################################################################
2025-05-07T19:43:09.0840007Z [INFO] Print ldd version ...
2025-05-07T19:43:09.0840212Z + ldd --version
2025-05-07T19:43:09.0840319Z 
2025-05-07T19:43:09.0840440Z ldd (GNU libc) 2.28
2025-05-07T19:43:09.0840660Z Copyright (C) 2018 Free Software Foundation, Inc.
2025-05-07T19:43:09.0841057Z This is free software; see the source for copying conditions.  There is NO
2025-05-07T19:43:09.0841538Z warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
2025-05-07T19:43:09.0841933Z Written by Roland McGrath and Ulrich Drepper.
2025-05-07T19:43:09.0842576Z 
2025-05-07T19:43:09.0842689Z ################################################################################
2025-05-07T19:43:09.0842952Z [INFO] Print CPU info ...
2025-05-07T19:43:09.0843148Z + nproc
2025-05-07T19:43:09.0843233Z 
2025-05-07T19:43:09.0843289Z 16
2025-05-07T19:43:09.0843373Z 
2025-05-07T19:43:09.0843430Z + lscpu
2025-05-07T19:43:09.0843516Z 
2025-05-07T19:43:09.0868624Z Architecture:        aarch64
2025-05-07T19:43:09.0869175Z Byte Order:          Little Endian
2025-05-07T19:43:09.0869401Z CPU(s):              16
2025-05-07T19:43:09.0869588Z On-line CPU(s) list: 0-15
2025-05-07T19:43:09.0869794Z Thread(s) per core:  1
2025-05-07T19:43:09.0869981Z Core(s) per cluster: 16
2025-05-07T19:43:09.0870172Z Socket(s):           -
2025-05-07T19:43:09.0870349Z Cluster(s):          1
2025-05-07T19:43:09.0870528Z NUMA node(s):        1
2025-05-07T19:43:09.0870706Z Vendor ID:           ARM
2025-05-07T19:43:09.0870895Z Model:               1
2025-05-07T19:43:09.0871089Z Stepping:            r1p1
2025-05-07T19:43:09.0871290Z BogoMIPS:            2100.00
2025-05-07T19:43:09.0871497Z L1d cache:           64K
2025-05-07T19:43:09.0871811Z L1i cache:           64K
2025-05-07T19:43:09.0872009Z L2 cache:            1024K
2025-05-07T19:43:09.0872199Z L3 cache:            32768K
2025-05-07T19:43:09.0872399Z NUMA node0 CPU(s):   0-15
2025-05-07T19:43:09.0873208Z Flags:               fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0874017Z 
2025-05-07T19:43:09.0874084Z + cat /proc/cpuinfo
2025-05-07T19:43:09.0874193Z 
2025-05-07T19:43:09.0891256Z processor	: 0
2025-05-07T19:43:09.0891442Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0892263Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0893127Z CPU implementer	: 0x41
2025-05-07T19:43:09.0893317Z CPU architecture: 8
2025-05-07T19:43:09.0893496Z CPU variant	: 0x1
2025-05-07T19:43:09.0893664Z CPU part	: 0xd40
2025-05-07T19:43:09.0893841Z CPU revision	: 1
2025-05-07T19:43:09.0893947Z 
2025-05-07T19:43:09.0894008Z processor	: 1
2025-05-07T19:43:09.0894170Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0894950Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0895799Z CPU implementer	: 0x41
2025-05-07T19:43:09.0895988Z CPU architecture: 8
2025-05-07T19:43:09.0896169Z CPU variant	: 0x1
2025-05-07T19:43:09.0896341Z CPU part	: 0xd40
2025-05-07T19:43:09.0896507Z CPU revision	: 1
2025-05-07T19:43:09.0896612Z 
2025-05-07T19:43:09.0896683Z processor	: 2
2025-05-07T19:43:09.0896844Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0897637Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0898527Z CPU implementer	: 0x41
2025-05-07T19:43:09.0898717Z CPU architecture: 8
2025-05-07T19:43:09.0898898Z CPU variant	: 0x1
2025-05-07T19:43:09.0899063Z CPU part	: 0xd40
2025-05-07T19:43:09.0899243Z CPU revision	: 1
2025-05-07T19:43:09.0899349Z 
2025-05-07T19:43:09.0899414Z processor	: 3
2025-05-07T19:43:09.0899572Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0900351Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0901183Z CPU implementer	: 0x41
2025-05-07T19:43:09.0901373Z CPU architecture: 8
2025-05-07T19:43:09.0901544Z CPU variant	: 0x1
2025-05-07T19:43:09.0902026Z CPU part	: 0xd40
2025-05-07T19:43:09.0902220Z CPU revision	: 1
2025-05-07T19:43:09.0902332Z 
2025-05-07T19:43:09.0902397Z processor	: 4
2025-05-07T19:43:09.0902559Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0903340Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0904338Z CPU implementer	: 0x41
2025-05-07T19:43:09.0904525Z CPU architecture: 8
2025-05-07T19:43:09.0904703Z CPU variant	: 0x1
2025-05-07T19:43:09.0904871Z CPU part	: 0xd40
2025-05-07T19:43:09.0905043Z CPU revision	: 1
2025-05-07T19:43:09.0905145Z 
2025-05-07T19:43:09.0905210Z processor	: 5
2025-05-07T19:43:09.0905370Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0906162Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0907000Z CPU implementer	: 0x41
2025-05-07T19:43:09.0907190Z CPU architecture: 8
2025-05-07T19:43:09.0907361Z CPU variant	: 0x1
2025-05-07T19:43:09.0907533Z CPU part	: 0xd40
2025-05-07T19:43:09.0907699Z CPU revision	: 1
2025-05-07T19:43:09.0907808Z 
2025-05-07T19:43:09.0907870Z processor	: 6
2025-05-07T19:43:09.0908030Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0908812Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0909661Z CPU implementer	: 0x41
2025-05-07T19:43:09.0909850Z CPU architecture: 8
2025-05-07T19:43:09.0910025Z CPU variant	: 0x1
2025-05-07T19:43:09.0910196Z CPU part	: 0xd40
2025-05-07T19:43:09.0910365Z CPU revision	: 1
2025-05-07T19:43:09.0910474Z 
2025-05-07T19:43:09.0910538Z processor	: 7
2025-05-07T19:43:09.0910709Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0911486Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0912500Z CPU implementer	: 0x41
2025-05-07T19:43:09.0912691Z CPU architecture: 8
2025-05-07T19:43:09.0912863Z CPU variant	: 0x1
2025-05-07T19:43:09.0913035Z CPU part	: 0xd40
2025-05-07T19:43:09.0913208Z CPU revision	: 1
2025-05-07T19:43:09.0913315Z 
2025-05-07T19:43:09.0913377Z processor	: 8
2025-05-07T19:43:09.0913533Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0914319Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0915168Z CPU implementer	: 0x41
2025-05-07T19:43:09.0915351Z CPU architecture: 8
2025-05-07T19:43:09.0915532Z CPU variant	: 0x1
2025-05-07T19:43:09.0915699Z CPU part	: 0xd40
2025-05-07T19:43:09.0915869Z CPU revision	: 1
2025-05-07T19:43:09.0915973Z 
2025-05-07T19:43:09.0916035Z processor	: 9
2025-05-07T19:43:09.0916196Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0916974Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0917826Z CPU implementer	: 0x41
2025-05-07T19:43:09.0918018Z CPU architecture: 8
2025-05-07T19:43:09.0918187Z CPU variant	: 0x1
2025-05-07T19:43:09.0918361Z CPU part	: 0xd40
2025-05-07T19:43:09.0918525Z CPU revision	: 1
2025-05-07T19:43:09.0918634Z 
2025-05-07T19:43:09.0918700Z processor	: 10
2025-05-07T19:43:09.0918859Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0919966Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0920823Z CPU implementer	: 0x41
2025-05-07T19:43:09.0921011Z CPU architecture: 8
2025-05-07T19:43:09.0921188Z CPU variant	: 0x1
2025-05-07T19:43:09.0921354Z CPU part	: 0xd40
2025-05-07T19:43:09.0921524Z CPU revision	: 1
2025-05-07T19:43:09.0921627Z 
2025-05-07T19:43:09.0921693Z processor	: 11
2025-05-07T19:43:09.0921858Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0922775Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0923617Z CPU implementer	: 0x41
2025-05-07T19:43:09.0923807Z CPU architecture: 8
2025-05-07T19:43:09.0923980Z CPU variant	: 0x1
2025-05-07T19:43:09.0924151Z CPU part	: 0xd40
2025-05-07T19:43:09.0924319Z CPU revision	: 1
2025-05-07T19:43:09.0924424Z 
2025-05-07T19:43:09.0924492Z processor	: 12
2025-05-07T19:43:09.0924660Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0925441Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0926283Z CPU implementer	: 0x41
2025-05-07T19:43:09.0926471Z CPU architecture: 8
2025-05-07T19:43:09.0926647Z CPU variant	: 0x1
2025-05-07T19:43:09.0926820Z CPU part	: 0xd40
2025-05-07T19:43:09.0926996Z CPU revision	: 1
2025-05-07T19:43:09.0927100Z 
2025-05-07T19:43:09.0927163Z processor	: 13
2025-05-07T19:43:09.0927329Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0928108Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0928945Z CPU implementer	: 0x41
2025-05-07T19:43:09.0929138Z CPU architecture: 8
2025-05-07T19:43:09.0929318Z CPU variant	: 0x1
2025-05-07T19:43:09.0929490Z CPU part	: 0xd40
2025-05-07T19:43:09.0929655Z CPU revision	: 1
2025-05-07T19:43:09.0929761Z 
2025-05-07T19:43:09.0929833Z processor	: 14
2025-05-07T19:43:09.0929994Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0930773Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0931608Z CPU implementer	: 0x41
2025-05-07T19:43:09.0931798Z CPU architecture: 8
2025-05-07T19:43:09.0931974Z CPU variant	: 0x1
2025-05-07T19:43:09.0932143Z CPU part	: 0xd40
2025-05-07T19:43:09.0932311Z CPU revision	: 1
2025-05-07T19:43:09.0932417Z 
2025-05-07T19:43:09.0932483Z processor	: 15
2025-05-07T19:43:09.0932653Z BogoMIPS	: 2100.00
2025-05-07T19:43:09.0933438Z Features	: fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:09.0934279Z CPU implementer	: 0x41
2025-05-07T19:43:09.0934474Z CPU architecture: 8
2025-05-07T19:43:09.0934659Z CPU variant	: 0x1
2025-05-07T19:43:09.0934837Z CPU part	: 0xd40
2025-05-07T19:43:09.0935005Z CPU revision	: 1
2025-05-07T19:43:09.0935117Z 
2025-05-07T19:43:09.0935121Z 
2025-05-07T19:43:09.0935224Z ################################################################################
2025-05-07T19:43:09.0935511Z [INFO] Print Linux distribution info ...
2025-05-07T19:43:09.0935758Z + uname -a
2025-05-07T19:43:09.0935849Z 
2025-05-07T19:43:09.0936181Z Linux c0ec2cda8dde 6.1.130-139.222.amzn2023.aarch64 #1 SMP Tue Mar 11 01:10:34 UTC 2025 aarch64 aarch64 aarch64 GNU/Linux
2025-05-07T19:43:09.0938239Z 
2025-05-07T19:43:09.0938323Z + uname -m
2025-05-07T19:43:09.0938423Z 
2025-05-07T19:43:09.0938485Z aarch64
2025-05-07T19:43:09.0938571Z 
2025-05-07T19:43:09.0938635Z + cat /proc/version
2025-05-07T19:43:09.0939170Z 
2025-05-07T19:43:09.0954652Z Linux version 6.1.130-139.222.amzn2023.aarch64 (mockbuild@ip-10-0-51-161) (gcc (GCC) 11.5.0 20240719 (Red Hat 11.5.0-5), GNU ld version 2.39-6.amzn2023.0.11) #1 SMP Tue Mar 11 01:10:34 UTC 2025
2025-05-07T19:43:09.0955975Z 
2025-05-07T19:43:09.0956665Z + cat /etc/os-release
2025-05-07T19:43:09.0956838Z 
2025-05-07T19:43:09.0974374Z NAME="AlmaLinux"
2025-05-07T19:43:09.0974582Z VERSION="8.10 (Cerulean Leopard)"
2025-05-07T19:43:09.0975197Z ID="almalinux"
2025-05-07T19:43:09.0975376Z ID_LIKE="rhel centos fedora"
2025-05-07T19:43:09.0975582Z VERSION_ID="8.10"
2025-05-07T19:43:09.0975769Z PLATFORM_ID="platform:el8"
2025-05-07T19:43:09.0976018Z PRETTY_NAME="AlmaLinux 8.10 (Cerulean Leopard)"
2025-05-07T19:43:09.0976298Z ANSI_COLOR="0;34"
2025-05-07T19:43:09.0976493Z LOGO="fedora-logo-icon"
2025-05-07T19:43:09.0976901Z CPE_NAME="cpe:/o:almalinux:almalinux:8::baseos"
2025-05-07T19:43:09.0977224Z HOME_URL="https://almalinux.org/"
2025-05-07T19:43:09.0977528Z DOCUMENTATION_URL="https://wiki.almalinux.org/"
2025-05-07T19:43:09.0977857Z BUG_REPORT_URL="https://bugs.almalinux.org/"
2025-05-07T19:43:09.0978057Z 
2025-05-07T19:43:09.0978156Z ALMALINUX_MANTISBT_PROJECT="AlmaLinux-8"
2025-05-07T19:43:09.0978435Z ALMALINUX_MANTISBT_PROJECT_VERSION="8.10"
2025-05-07T19:43:09.0978703Z REDHAT_SUPPORT_PRODUCT="AlmaLinux"
2025-05-07T19:43:09.0978950Z REDHAT_SUPPORT_PRODUCT_VERSION="8.10"
2025-05-07T19:43:09.0979193Z SUPPORT_END=2029-06-01
2025-05-07T19:43:09.0979332Z 
2025-05-07T19:43:09.1001103Z [NOVA] Time taken to display System Info: 0 seconds
2025-05-07T19:43:09.1001796Z ################################################################################
2025-05-07T19:43:09.1002081Z # Print Conda Environment Info
2025-05-07T19:43:09.1002292Z #
2025-05-07T19:43:09.1024483Z # [2025-05-07T19:43:09.102Z] + print_conda_info 
2025-05-07T19:43:09.1024779Z ################################################################################
2025-05-07T19:43:09.1024980Z 
2025-05-07T19:43:09.1025585Z + conda info
2025-05-07T19:43:09.1025724Z 
2025-05-07T19:43:09.7173309Z 
2025-05-07T19:43:09.7174003Z      active environment : /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.7174434Z     active env location : /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:09.7174746Z             shell level : 2
2025-05-07T19:43:09.7174973Z        user config file : /github/home/.condarc
2025-05-07T19:43:09.7175263Z  populated config files : /opt/conda/.condarc
2025-05-07T19:43:09.7175568Z                           /github/home/.condarc
2025-05-07T19:43:09.7175813Z           conda version : 25.3.0
2025-05-07T19:43:09.7176047Z     conda-build version : not installed
2025-05-07T19:43:09.7176300Z          python version : 3.12.9.final.0
2025-05-07T19:43:09.7176551Z                  solver : libmamba (default)
2025-05-07T19:43:09.7176827Z        virtual packages : __archspec=1=neoverse_v1
2025-05-07T19:43:09.7177093Z                           __conda=25.3.0=0
2025-05-07T19:43:09.7177349Z                           __glibc=2.28=0
2025-05-07T19:43:09.7177579Z                           __linux=6.1.130=0
2025-05-07T19:43:09.7177816Z                           __unix=0=0
2025-05-07T19:43:09.7178059Z        base environment : /opt/conda  (writable)
2025-05-07T19:43:09.7178340Z       conda av data dir : /opt/conda/etc/conda
2025-05-07T19:43:09.7178595Z   conda av metadata url : None
2025-05-07T19:43:09.7178933Z            channel URLs : https://conda.anaconda.org/conda-forge/linux-aarch64
2025-05-07T19:43:09.7179358Z                           https://conda.anaconda.org/conda-forge/noarch
2025-05-07T19:43:09.7179661Z           package cache : /opt/conda/pkgs
2025-05-07T19:43:09.7179922Z                           /github/home/.conda/pkgs
2025-05-07T19:43:09.7180183Z        envs directories : /opt/conda/envs
2025-05-07T19:43:09.7180471Z                           /github/home/.conda/envs
2025-05-07T19:43:09.7180733Z                platform : linux-aarch64
2025-05-07T19:43:09.7181859Z              user-agent : conda/25.3.0 requests/2.32.3 CPython/3.12.9 Linux/6.1.130-139.222.amzn2023.aarch64 almalinux/8.10 glibc/2.28 solver/libmamba conda-libmamba-solver/25.3.0 libmambapy/2.0.8
2025-05-07T19:43:09.7182564Z                 UID:GID : 0:0
2025-05-07T19:43:09.7182770Z              netrc file : None
2025-05-07T19:43:09.7182980Z            offline mode : False
2025-05-07T19:43:09.7183121Z 
2025-05-07T19:43:09.7992905Z 
2025-05-07T19:43:09.7992997Z 
2025-05-07T19:43:09.7993523Z + conda info --envs
2025-05-07T19:43:09.7993654Z 
2025-05-07T19:43:10.4187090Z 
2025-05-07T19:43:10.4187493Z # conda environments:
2025-05-07T19:43:10.4187736Z #
2025-05-07T19:43:10.4188000Z base                   /opt/conda
2025-05-07T19:43:10.4188160Z 
2025-05-07T19:43:10.5024966Z 
2025-05-07T19:43:10.5024976Z 
2025-05-07T19:43:10.5025269Z PYTHON_VERSION:     3.9
2025-05-07T19:43:10.5048439Z python3 --version:  Python 3.9.22
2025-05-07T19:43:10.5074088Z [NOVA] Time taken to display Conda information: 1 seconds
2025-05-07T19:43:10.5075302Z ################################################################################
2025-05-07T19:43:10.5075600Z [INFO] Printing NVIDIA GPU info ...
2025-05-07T19:43:10.5085784Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.github/scripts/utils_system.bash: line 144: lspci: command not found
2025-05-07T19:43:10.5135529Z /usr/bin/which: no nvidia-smi in (/__w/_temp/conda_environment_14891846315/bin:/opt/conda/condabin:/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/sbin:/sbin)
2025-05-07T19:43:10.5137171Z [CHECK] nvidia-smi not found
2025-05-07T19:43:10.5137430Z ################################################################################
2025-05-07T19:43:10.5137707Z [INFO] Printing AMD GPU info ...
2025-05-07T19:43:10.5145773Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.github/scripts/utils_system.bash: line 164: lspci: command not found
2025-05-07T19:43:10.5186332Z /usr/bin/which: no rocminfo in (/__w/_temp/conda_environment_14891846315/bin:/opt/conda/condabin:/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/sbin:/sbin)
2025-05-07T19:43:10.5187699Z [CHECK] rocminfo not found
2025-05-07T19:43:10.5213750Z /usr/bin/which: no rocm-smi in (/__w/_temp/conda_environment_14891846315/bin:/opt/conda/condabin:/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/sbin:/sbin)
2025-05-07T19:43:10.5215102Z [CHECK] rocm-smi not found
2025-05-07T19:43:10.5238971Z [NOVA] Time taken to display GPU Info: 0 seconds
2025-05-07T19:43:10.5240335Z ################################################################################
2025-05-07T19:43:10.5240598Z # Install Build Tools
2025-05-07T19:43:10.5240782Z #
2025-05-07T19:43:10.5263035Z # [2025-05-07T19:43:10.525Z] + install_build_tools /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:10.5263455Z ################################################################################
2025-05-07T19:43:10.5263653Z 
2025-05-07T19:43:10.5286663Z [EXEC] [ATTEMPT 0/3]    + wget -q --timeout 1 pypi.org -O /dev/null
2025-05-07T19:43:10.6818894Z [CHECK] Network does not appear to be blocked.
2025-05-07T19:43:10.6828135Z [INSTALL] Installing build tools ...
2025-05-07T19:43:10.6857599Z [EXEC] [ATTEMPT 0/3]    + conda install -p /__w/_temp/conda_environment_14891846315 -c conda-forge --override-channels -y auditwheel bazel cmake>=3.30 hypothesis jinja2 make ncurses ninja openblas patchelf rhash scikit-build wheel pyyaml
2025-05-07T19:43:11.5843962Z Channels:
2025-05-07T19:43:11.5844169Z  - conda-forge
2025-05-07T19:43:11.5844795Z Platform: linux-aarch64
2025-05-07T19:43:15.5717348Z Collecting package metadata (repodata.json): ...working... done
2025-05-07T19:43:15.9943534Z Solving environment: ...working... done
2025-05-07T19:43:16.0021490Z 
2025-05-07T19:43:16.0021499Z 
2025-05-07T19:43:16.0021662Z ==> WARNING: A newer version of conda exists. <==
2025-05-07T19:43:16.0021949Z     current version: 25.3.0
2025-05-07T19:43:16.0022155Z     latest version: 25.3.1
2025-05-07T19:43:16.0022288Z 
2025-05-07T19:43:16.0022853Z Please update conda by running
2025-05-07T19:43:16.0023007Z 
2025-05-07T19:43:16.0023116Z     $ conda update -n base -c conda-forge conda
2025-05-07T19:43:16.0023311Z 
2025-05-07T19:43:16.0023316Z 
2025-05-07T19:43:16.0602044Z 
2025-05-07T19:43:16.0602244Z ## Package Plan ##
2025-05-07T19:43:16.0602381Z 
2025-05-07T19:43:16.0602558Z   environment location: /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:16.0602824Z 
2025-05-07T19:43:16.0602902Z   added / updated specs:
2025-05-07T19:43:16.0603104Z     - auditwheel
2025-05-07T19:43:16.0603292Z     - bazel
2025-05-07T19:43:16.0603460Z     - cmake[version='>=3.30']
2025-05-07T19:43:16.0603664Z     - hypothesis
2025-05-07T19:43:16.0603826Z     - jinja2
2025-05-07T19:43:16.0603975Z     - make
2025-05-07T19:43:16.0604123Z     - ncurses
2025-05-07T19:43:16.0604274Z     - ninja
2025-05-07T19:43:16.0604425Z     - openblas
2025-05-07T19:43:16.0604582Z     - patchelf
2025-05-07T19:43:16.0604743Z     - pyyaml
2025-05-07T19:43:16.0604891Z     - rhash
2025-05-07T19:43:16.0605062Z     - scikit-build
2025-05-07T19:43:16.0605228Z     - wheel
2025-05-07T19:43:16.0605322Z 
2025-05-07T19:43:16.0605326Z 
2025-05-07T19:43:16.0605424Z The following packages will be downloaded:
2025-05-07T19:43:16.0605611Z 
2025-05-07T19:43:16.0605706Z     package                    |            build
2025-05-07T19:43:16.0605972Z     ---------------------------|-----------------
2025-05-07T19:43:16.0606294Z     alsa-lib-1.2.14            |       h86ecc28_0         581 KB  conda-forge
2025-05-07T19:43:16.0606671Z     attrs-25.3.0               |     pyh71513ae_0          56 KB  conda-forge
2025-05-07T19:43:16.0607045Z     auditwheel-6.2.0           |     pyha804496_1          40 KB  conda-forge
2025-05-07T19:43:16.0607415Z     bazel-7.5.0                |       h23d872e_2        45.4 MB  conda-forge
2025-05-07T19:43:16.0607758Z     cairo-1.18.4               |       h83712da_0         944 KB  conda-forge
2025-05-07T19:43:16.0608105Z     click-8.1.8                |     pyh707e725_0          83 KB  conda-forge
2025-05-07T19:43:16.0608456Z     cmake-4.0.2                |       h0efca9c_0        19.0 MB  conda-forge
2025-05-07T19:43:16.0608841Z     exceptiongroup-1.2.2       |     pyhd8ed1ab_1          20 KB  conda-forge
2025-05-07T19:43:16.0609302Z     font-ttf-dejavu-sans-mono-2.37|       hab24e00_0         388 KB  conda-forge
2025-05-07T19:43:16.0609769Z     font-ttf-inconsolata-3.000 |       h77eed37_0          94 KB  conda-forge
2025-05-07T19:43:16.0610246Z     font-ttf-source-code-pro-2.038|       h77eed37_0         684 KB  conda-forge
2025-05-07T19:43:16.0610679Z     font-ttf-ubuntu-0.83       |       h77eed37_3         1.5 MB  conda-forge
2025-05-07T19:43:16.0611075Z     fontconfig-2.15.0          |       h8dda3cd_1         271 KB  conda-forge
2025-05-07T19:43:16.0611482Z     fonts-conda-ecosystem-1    |                0           4 KB  conda-forge
2025-05-07T19:43:16.0611907Z     fonts-conda-forge-1        |                0           4 KB  conda-forge
2025-05-07T19:43:16.0612301Z     freetype-2.13.3            |       h8af1aa0_1         168 KB  conda-forge
2025-05-07T19:43:16.0612665Z     giflib-5.2.2               |       h31becfc_0          80 KB  conda-forge
2025-05-07T19:43:16.0613034Z     graphite2-1.3.13           |    h2f0025b_1003          97 KB  conda-forge
2025-05-07T19:43:16.0613407Z     harfbuzz-11.1.0            |       h405b6a2_0         1.7 MB  conda-forge
2025-05-07T19:43:16.0613796Z     hypothesis-6.131.14        |     pyha770c72_0         348 KB  conda-forge
2025-05-07T19:43:16.0614618Z     ijar-7.5.0                 |       h1d056c8_0         142 KB  conda-forge
2025-05-07T19:43:16.0614989Z     jinja2-3.1.6               |     pyhd8ed1ab_0         110 KB  conda-forge
2025-05-07T19:43:16.0615339Z     lcms2-2.17                 |       hc88f144_0         280 KB  conda-forge
2025-05-07T19:43:16.0615673Z     lerc-4.0.0                 |       hfdc4d58_1         222 KB  conda-forge
2025-05-07T19:43:16.0616056Z     libabseil-20250127.1       | cxx17_h18dbdb1_0         1.3 MB  conda-forge
2025-05-07T19:43:16.0616603Z     libcups-2.3.3              |       h405e4a8_4         4.3 MB  conda-forge
2025-05-07T19:43:16.0616970Z     libdeflate-1.23            |       he377734_0          69 KB  conda-forge
2025-05-07T19:43:16.0617352Z     libfreetype-2.13.3         |       h8af1aa0_1           8 KB  conda-forge
2025-05-07T19:43:16.0617743Z     libfreetype6-2.13.3        |       he93130f_1         399 KB  conda-forge
2025-05-07T19:43:16.0618138Z     libgfortran-14.2.0         |       he9431aa_2          52 KB  conda-forge
2025-05-07T19:43:16.0618534Z     libgfortran5-14.2.0        |       hb6113d0_2         1.0 MB  conda-forge
2025-05-07T19:43:16.0618921Z     libgrpc-1.71.0             |       h107bb78_1         7.4 MB  conda-forge
2025-05-07T19:43:16.0619295Z     libjpeg-turbo-3.1.0        |       h86ecc28_0         638 KB  conda-forge
2025-05-07T19:43:16.0619710Z     libopenblas-0.3.29         |pthreads_h9d3fd7e_0         4.6 MB  conda-forge
2025-05-07T19:43:16.0620101Z     libpng-1.6.47              |       hec79eb8_0         285 KB  conda-forge
2025-05-07T19:43:16.0620483Z     libprotobuf-5.29.3         |       h4edc36e_1         3.0 MB  conda-forge
2025-05-07T19:43:16.0620871Z     libre2-11-2024.07.02       |       h201e9ed_3         199 KB  conda-forge
2025-05-07T19:43:16.0621237Z     libtiff-4.7.0              |       h88f7998_4         453 KB  conda-forge
2025-05-07T19:43:16.0621689Z     libwebp-base-1.5.0         |       h0886dbf_0         354 KB  conda-forge
2025-05-07T19:43:16.0622069Z     libxcb-1.17.0              |       h262b8f6_0         388 KB  conda-forge
2025-05-07T19:43:16.0622410Z     make-4.4.1                 |       h2a6d0cb_2         516 KB  conda-forge
2025-05-07T19:43:16.0622776Z     markupsafe-3.0.2           |   py39h36a3f59_1          23 KB  conda-forge
2025-05-07T19:43:16.0623174Z     openblas-0.3.29            |pthreads_h3a8cbd8_0         4.7 MB  conda-forge
2025-05-07T19:43:16.0623556Z     openjdk-23.0.2             |       h0f44c73_2       174.2 MB  conda-forge
2025-05-07T19:43:16.0623934Z     packaging-25.0             |     pyh29332c3_1          61 KB  conda-forge
2025-05-07T19:43:16.0624302Z     patchelf-0.18.0            |       h5ad3122_2         132 KB  conda-forge
2025-05-07T19:43:16.0624667Z     pixman-0.46.0              |       h86a87f0_0         297 KB  conda-forge
2025-05-07T19:43:16.0625038Z     pthread-stubs-0.4          |    h86ecc28_1002           8 KB  conda-forge
2025-05-07T19:43:16.0625431Z     pyelftools-0.32            |     pyh707e725_1         146 KB  conda-forge
2025-05-07T19:43:16.0625813Z     python_abi-3.9             |           6_cp39           7 KB  conda-forge
2025-05-07T19:43:16.0626179Z     pyyaml-6.0.2               |   py39hbebea31_2         171 KB  conda-forge
2025-05-07T19:43:16.0626536Z     re2-2024.07.02             |       haa97905_3          26 KB  conda-forge
2025-05-07T19:43:16.0626909Z     scikit-build-0.18.1        |     pyhae55e72_2         114 KB  conda-forge
2025-05-07T19:43:16.0627296Z     singlejar-7.5.0            |       h3f692f9_1         130 KB  conda-forge
2025-05-07T19:43:16.0627706Z     sortedcontainers-2.4.0     |     pyhd8ed1ab_1          28 KB  conda-forge
2025-05-07T19:43:16.0628105Z     tomli-2.2.1                |     pyhd8ed1ab_1          19 KB  conda-forge
2025-05-07T19:43:16.0628501Z     typing-extensions-4.13.2   |       h0e9735f_0          88 KB  conda-forge
2025-05-07T19:43:16.0628929Z     typing_extensions-4.13.2   |     pyh29332c3_0          51 KB  conda-forge
2025-05-07T19:43:16.0629560Z     xorg-libice-1.1.2          |       h86ecc28_0          59 KB  conda-forge
2025-05-07T19:43:16.0629947Z     xorg-libsm-1.2.6           |       h0808dbd_0          28 KB  conda-forge
2025-05-07T19:43:16.0630329Z     xorg-libx11-1.8.12         |       hca56bd8_0         845 KB  conda-forge
2025-05-07T19:43:16.0630715Z     xorg-libxau-1.0.12         |       h86ecc28_0          16 KB  conda-forge
2025-05-07T19:43:16.0631102Z     xorg-libxdmcp-1.1.5        |       h57736b2_0          20 KB  conda-forge
2025-05-07T19:43:16.0631652Z     xorg-libxext-1.3.6         |       h57736b2_0          50 KB  conda-forge
2025-05-07T19:43:16.0632218Z     xorg-libxfixes-6.0.1       |       h57736b2_0          20 KB  conda-forge
2025-05-07T19:43:16.0632608Z     xorg-libxi-1.8.2           |       h57736b2_0          47 KB  conda-forge
2025-05-07T19:43:16.0632994Z     xorg-libxrandr-1.5.4       |       h86ecc28_0          29 KB  conda-forge
2025-05-07T19:43:16.0633407Z     xorg-libxrender-0.9.12     |       h86ecc28_0          33 KB  conda-forge
2025-05-07T19:43:16.0633811Z     xorg-libxt-1.3.1           |       h57736b2_0         376 KB  conda-forge
2025-05-07T19:43:16.0634185Z     xorg-libxtst-1.2.5         |       h57736b2_3          33 KB  conda-forge
2025-05-07T19:43:16.0634545Z     yaml-0.2.5                 |       hf897c2e_2          91 KB  conda-forge
2025-05-07T19:43:16.0634874Z     ------------------------------------------------------------
2025-05-07T19:43:16.0635168Z                                            Total:       279.0 MB
2025-05-07T19:43:16.0635358Z 
2025-05-07T19:43:16.0635461Z The following NEW packages will be INSTALLED:
2025-05-07T19:43:16.0635656Z 
2025-05-07T19:43:16.0635851Z   alsa-lib           conda-forge/linux-aarch64::alsa-lib-1.2.14-h86ecc28_0 
2025-05-07T19:43:16.0636251Z   attrs              conda-forge/noarch::attrs-25.3.0-pyh71513ae_0 
2025-05-07T19:43:16.0636851Z   auditwheel         conda-forge/noarch::auditwheel-6.2.0-pyha804496_1 
2025-05-07T19:43:16.0637279Z   bazel              conda-forge/linux-aarch64::bazel-7.5.0-h23d872e_2 
2025-05-07T19:43:16.0637671Z   cairo              conda-forge/linux-aarch64::cairo-1.18.4-h83712da_0 
2025-05-07T19:43:16.0638039Z   click              conda-forge/noarch::click-8.1.8-pyh707e725_0 
2025-05-07T19:43:16.0638405Z   distro             conda-forge/noarch::distro-1.9.0-pyhd8ed1ab_1 
2025-05-07T19:43:16.0638838Z   exceptiongroup     conda-forge/noarch::exceptiongroup-1.2.2-pyhd8ed1ab_1 
2025-05-07T19:43:16.0639367Z   font-ttf-dejavu-s~ conda-forge/noarch::font-ttf-dejavu-sans-mono-2.37-hab24e00_0 
2025-05-07T19:43:16.0639921Z   font-ttf-inconsol~ conda-forge/noarch::font-ttf-inconsolata-3.000-h77eed37_0 
2025-05-07T19:43:16.0640460Z   font-ttf-source-c~ conda-forge/noarch::font-ttf-source-code-pro-2.038-h77eed37_0 
2025-05-07T19:43:16.0640971Z   font-ttf-ubuntu    conda-forge/noarch::font-ttf-ubuntu-0.83-h77eed37_3 
2025-05-07T19:43:16.0641438Z   fontconfig         conda-forge/linux-aarch64::fontconfig-2.15.0-h8dda3cd_1 
2025-05-07T19:43:16.0641903Z   fonts-conda-ecosy~ conda-forge/noarch::fonts-conda-ecosystem-1-0 
2025-05-07T19:43:16.0642335Z   fonts-conda-forge  conda-forge/noarch::fonts-conda-forge-1-0 
2025-05-07T19:43:16.0642760Z   freetype           conda-forge/linux-aarch64::freetype-2.13.3-h8af1aa0_1 
2025-05-07T19:43:16.0643176Z   giflib             conda-forge/linux-aarch64::giflib-5.2.2-h31becfc_0 
2025-05-07T19:43:16.0643599Z   graphite2          conda-forge/linux-aarch64::graphite2-1.3.13-h2f0025b_1003 
2025-05-07T19:43:16.0644044Z   harfbuzz           conda-forge/linux-aarch64::harfbuzz-11.1.0-h405b6a2_0 
2025-05-07T19:43:16.0644486Z   hypothesis         conda-forge/noarch::hypothesis-6.131.14-pyha770c72_0 
2025-05-07T19:43:16.0644890Z   icu                conda-forge/linux-aarch64::icu-75.1-hf9b3779_0 
2025-05-07T19:43:16.0645253Z   ijar               conda-forge/linux-aarch64::ijar-7.5.0-h1d056c8_0 
2025-05-07T19:43:16.0645623Z   jinja2             conda-forge/noarch::jinja2-3.1.6-pyhd8ed1ab_0 
2025-05-07T19:43:16.0645996Z   lcms2              conda-forge/linux-aarch64::lcms2-2.17-hc88f144_0 
2025-05-07T19:43:16.0646740Z   lerc               conda-forge/linux-aarch64::lerc-4.0.0-hfdc4d58_1 
2025-05-07T19:43:16.0647212Z   libabseil          conda-forge/linux-aarch64::libabseil-20250127.1-cxx17_h18dbdb1_0 
2025-05-07T19:43:16.0647673Z   libcups            conda-forge/linux-aarch64::libcups-2.3.3-h405e4a8_4 
2025-05-07T19:43:16.0648093Z   libdeflate         conda-forge/linux-aarch64::libdeflate-1.23-he377734_0 
2025-05-07T19:43:16.0648552Z   libfreetype        conda-forge/linux-aarch64::libfreetype-2.13.3-h8af1aa0_1 
2025-05-07T19:43:16.0649197Z   libfreetype6       conda-forge/linux-aarch64::libfreetype6-2.13.3-he93130f_1 
2025-05-07T19:43:16.0649684Z   libgfortran        conda-forge/linux-aarch64::libgfortran-14.2.0-he9431aa_2 
2025-05-07T19:43:16.0650166Z   libgfortran5       conda-forge/linux-aarch64::libgfortran5-14.2.0-hb6113d0_2 
2025-05-07T19:43:16.0650610Z   libgrpc            conda-forge/linux-aarch64::libgrpc-1.71.0-h107bb78_1 
2025-05-07T19:43:16.0651074Z   libjpeg-turbo      conda-forge/linux-aarch64::libjpeg-turbo-3.1.0-h86ecc28_0 
2025-05-07T19:43:16.0651590Z   libopenblas        conda-forge/linux-aarch64::libopenblas-0.3.29-pthreads_h9d3fd7e_0 
2025-05-07T19:43:16.0652071Z   libpng             conda-forge/linux-aarch64::libpng-1.6.47-hec79eb8_0 
2025-05-07T19:43:16.0652514Z   libprotobuf        conda-forge/linux-aarch64::libprotobuf-5.29.3-h4edc36e_1 
2025-05-07T19:43:16.0652981Z   libre2-11          conda-forge/linux-aarch64::libre2-11-2024.07.02-h201e9ed_3 
2025-05-07T19:43:16.0653421Z   libtiff            conda-forge/linux-aarch64::libtiff-4.7.0-h88f7998_4 
2025-05-07T19:43:16.0653860Z   libwebp-base       conda-forge/linux-aarch64::libwebp-base-1.5.0-h0886dbf_0 
2025-05-07T19:43:16.0654301Z   libxcb             conda-forge/linux-aarch64::libxcb-1.17.0-h262b8f6_0 
2025-05-07T19:43:16.0654685Z   make               conda-forge/linux-aarch64::make-4.4.1-h2a6d0cb_2 
2025-05-07T19:43:16.0655110Z   markupsafe         conda-forge/linux-aarch64::markupsafe-3.0.2-py39h36a3f59_1 
2025-05-07T19:43:16.0655609Z   openblas           conda-forge/linux-aarch64::openblas-0.3.29-pthreads_h3a8cbd8_0 
2025-05-07T19:43:16.0656092Z   openjdk            conda-forge/linux-aarch64::openjdk-23.0.2-h0f44c73_2 
2025-05-07T19:43:16.0656507Z   packaging          conda-forge/noarch::packaging-25.0-pyh29332c3_1 
2025-05-07T19:43:16.0656929Z   patchelf           conda-forge/linux-aarch64::patchelf-0.18.0-h5ad3122_2 
2025-05-07T19:43:16.0657344Z   pixman             conda-forge/linux-aarch64::pixman-0.46.0-h86a87f0_0 
2025-05-07T19:43:16.0657796Z   pthread-stubs      conda-forge/linux-aarch64::pthread-stubs-0.4-h86ecc28_1002 
2025-05-07T19:43:16.0658264Z   pyelftools         conda-forge/noarch::pyelftools-0.32-pyh707e725_1 
2025-05-07T19:43:16.0658678Z   python_abi         conda-forge/linux-aarch64::python_abi-3.9-6_cp39 
2025-05-07T19:43:16.0659098Z   pyyaml             conda-forge/linux-aarch64::pyyaml-6.0.2-py39hbebea31_2 
2025-05-07T19:43:16.0659503Z   re2                conda-forge/linux-aarch64::re2-2024.07.02-haa97905_3 
2025-05-07T19:43:16.0659915Z   scikit-build       conda-forge/noarch::scikit-build-0.18.1-pyhae55e72_2 
2025-05-07T19:43:16.0660356Z   singlejar          conda-forge/linux-aarch64::singlejar-7.5.0-h3f692f9_1 
2025-05-07T19:43:16.0660835Z   sortedcontainers   conda-forge/noarch::sortedcontainers-2.4.0-pyhd8ed1ab_1 
2025-05-07T19:43:16.0661276Z   tomli              conda-forge/noarch::tomli-2.2.1-pyhd8ed1ab_1 
2025-05-07T19:43:16.0661718Z   typing-extensions  conda-forge/noarch::typing-extensions-4.13.2-h0e9735f_0 
2025-05-07T19:43:16.0662239Z   typing_extensions  conda-forge/noarch::typing_extensions-4.13.2-pyh29332c3_0 
2025-05-07T19:43:16.0662729Z   xorg-libice        conda-forge/linux-aarch64::xorg-libice-1.1.2-h86ecc28_0 
2025-05-07T19:43:16.0663188Z   xorg-libsm         conda-forge/linux-aarch64::xorg-libsm-1.2.6-h0808dbd_0 
2025-05-07T19:43:16.0663639Z   xorg-libx11        conda-forge/linux-aarch64::xorg-libx11-1.8.12-hca56bd8_0 
2025-05-07T19:43:16.0664314Z   xorg-libxau        conda-forge/linux-aarch64::xorg-libxau-1.0.12-h86ecc28_0 
2025-05-07T19:43:16.0664800Z   xorg-libxdmcp      conda-forge/linux-aarch64::xorg-libxdmcp-1.1.5-h57736b2_0 
2025-05-07T19:43:16.0665288Z   xorg-libxext       conda-forge/linux-aarch64::xorg-libxext-1.3.6-h57736b2_0 
2025-05-07T19:43:16.0665777Z   xorg-libxfixes     conda-forge/linux-aarch64::xorg-libxfixes-6.0.1-h57736b2_0 
2025-05-07T19:43:16.0666252Z   xorg-libxi         conda-forge/linux-aarch64::xorg-libxi-1.8.2-h57736b2_0 
2025-05-07T19:43:16.0666838Z   xorg-libxrandr     conda-forge/linux-aarch64::xorg-libxrandr-1.5.4-h86ecc28_0 
2025-05-07T19:43:16.0667357Z   xorg-libxrender    conda-forge/linux-aarch64::xorg-libxrender-0.9.12-h86ecc28_0 
2025-05-07T19:43:16.0667846Z   xorg-libxt         conda-forge/linux-aarch64::xorg-libxt-1.3.1-h57736b2_0 
2025-05-07T19:43:16.0668308Z   xorg-libxtst       conda-forge/linux-aarch64::xorg-libxtst-1.2.5-h57736b2_3 
2025-05-07T19:43:16.0668725Z   yaml               conda-forge/linux-aarch64::yaml-0.2.5-hf897c2e_2 
2025-05-07T19:43:16.0668969Z 
2025-05-07T19:43:16.0669062Z The following packages will be UPDATED:
2025-05-07T19:43:16.0669242Z 
2025-05-07T19:43:16.0669369Z   cmake                                   3.31.2-h0efca9c_1 --> 4.0.2-h0efca9c_0 
2025-05-07T19:43:16.0669724Z   wheel                                 0.37.1-pyhd8ed1ab_0 --> 0.45.1-pyhd8ed1ab_1 
2025-05-07T19:43:16.0669956Z 
2025-05-07T19:43:16.0766935Z 
2025-05-07T19:43:16.0766948Z 
2025-05-07T19:43:16.0768150Z Downloading and Extracting Packages: ...working...
2025-05-07T19:43:16.0772594Z openjdk-23.0.2       | 174.2 MB  |            |   0% 
2025-05-07T19:43:16.0773568Z 
2025-05-07T19:43:16.0783091Z bazel-7.5.0          | 45.4 MB   |            |   0% [A
2025-05-07T19:43:16.0783329Z 
2025-05-07T19:43:16.0783654Z 
2025-05-07T19:43:16.0792552Z cmake-4.0.2          | 19.0 MB   |            |   0% [A[A
2025-05-07T19:43:16.0792771Z 
2025-05-07T19:43:16.0792777Z 
2025-05-07T19:43:16.0799018Z 
2025-05-07T19:43:16.0807955Z libgrpc-1.71.0       | 7.4 MB    |            |   0% [A[A[A
2025-05-07T19:43:16.0808195Z 
2025-05-07T19:43:16.0808200Z 
2025-05-07T19:43:16.0808210Z 
2025-05-07T19:43:16.0814700Z 
2025-05-07T19:43:16.0827429Z openblas-0.3.29      | 4.7 MB    |            |   0% [A[A[A[A
2025-05-07T19:43:16.0827673Z 
2025-05-07T19:43:16.0827682Z 
2025-05-07T19:43:16.0827688Z 
2025-05-07T19:43:16.0827695Z 
2025-05-07T19:43:16.0829049Z 
2025-05-07T19:43:16.0837988Z libopenblas-0.3.29   | 4.6 MB    |            |   0% [A[A[A[A[A
2025-05-07T19:43:16.0838264Z 
2025-05-07T19:43:16.0838271Z 
2025-05-07T19:43:16.0838277Z 
2025-05-07T19:43:16.0838289Z 
2025-05-07T19:43:16.0838293Z 
2025-05-07T19:43:16.0841183Z 
2025-05-07T19:43:16.0866579Z libcups-2.3.3        | 4.3 MB    |            |   0% [A[A[A[A[A[A
2025-05-07T19:43:16.0866849Z 
2025-05-07T19:43:16.0866856Z 
2025-05-07T19:43:16.0866862Z 
2025-05-07T19:43:16.0866869Z 
2025-05-07T19:43:16.0866875Z 
2025-05-07T19:43:16.0866882Z 
2025-05-07T19:43:16.0872605Z 
2025-05-07T19:43:16.0880249Z libprotobuf-5.29.3   | 3.0 MB    |            |   0% [A[A[A[A[A[A[A
2025-05-07T19:43:16.0880528Z 
2025-05-07T19:43:16.0880535Z 
2025-05-07T19:43:16.0880545Z 
2025-05-07T19:43:16.0880551Z 
2025-05-07T19:43:16.0880558Z 
2025-05-07T19:43:16.0880566Z 
2025-05-07T19:43:16.0880571Z 
2025-05-07T19:43:16.0880612Z 
2025-05-07T19:43:16.0882351Z harfbuzz-11.1.0      | 1.7 MB    |            |   0% [A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0882605Z 
2025-05-07T19:43:16.0882611Z 
2025-05-07T19:43:16.0882633Z 
2025-05-07T19:43:16.0882641Z 
2025-05-07T19:43:16.0882646Z 
2025-05-07T19:43:16.0882652Z 
2025-05-07T19:43:16.0882658Z 
2025-05-07T19:43:16.0882663Z 
2025-05-07T19:43:16.0882674Z 
2025-05-07T19:43:16.0884549Z font-ttf-ubuntu-0.83 | 1.5 MB    |            |   0% [A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0884828Z 
2025-05-07T19:43:16.0884832Z 
2025-05-07T19:43:16.0884838Z 
2025-05-07T19:43:16.0884842Z 
2025-05-07T19:43:16.0884847Z 
2025-05-07T19:43:16.0884857Z 
2025-05-07T19:43:16.0884861Z 
2025-05-07T19:43:16.0884865Z 
2025-05-07T19:43:16.0885342Z 
2025-05-07T19:43:16.0885354Z 
2025-05-07T19:43:16.0886353Z libabseil-20250127.1 | 1.3 MB    |            |   0% [A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0886633Z 
2025-05-07T19:43:16.0886640Z 
2025-05-07T19:43:16.0886645Z 
2025-05-07T19:43:16.0886650Z 
2025-05-07T19:43:16.0886660Z 
2025-05-07T19:43:16.0886665Z 
2025-05-07T19:43:16.0886670Z 
2025-05-07T19:43:16.0886674Z 
2025-05-07T19:43:16.0886679Z 
2025-05-07T19:43:16.0886683Z 
2025-05-07T19:43:16.0886992Z 
2025-05-07T19:43:16.0887660Z libgfortran5-14.2.0  | 1.0 MB    |            |   0% [A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0887929Z 
2025-05-07T19:43:16.0887934Z 
2025-05-07T19:43:16.0887940Z 
2025-05-07T19:43:16.0887946Z 
2025-05-07T19:43:16.0887952Z 
2025-05-07T19:43:16.0887957Z 
2025-05-07T19:43:16.0887962Z 
2025-05-07T19:43:16.0887973Z 
2025-05-07T19:43:16.0887978Z 
2025-05-07T19:43:16.0887981Z 
2025-05-07T19:43:16.0887986Z 
2025-05-07T19:43:16.0887990Z 
2025-05-07T19:43:16.0888987Z cairo-1.18.4         | 944 KB    |            |   0% [A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0889237Z 
2025-05-07T19:43:16.0889242Z 
2025-05-07T19:43:16.0889255Z 
2025-05-07T19:43:16.0889260Z 
2025-05-07T19:43:16.0889266Z 
2025-05-07T19:43:16.0889270Z 
2025-05-07T19:43:16.0889275Z 
2025-05-07T19:43:16.0889279Z 
2025-05-07T19:43:16.0889284Z 
2025-05-07T19:43:16.0889289Z 
2025-05-07T19:43:16.0889293Z 
2025-05-07T19:43:16.0889298Z 
2025-05-07T19:43:16.0889303Z 
2025-05-07T19:43:16.0890331Z xorg-libx11-1.8.12   | 845 KB    |            |   0% [A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0890604Z 
2025-05-07T19:43:16.0890608Z 
2025-05-07T19:43:16.0890613Z 
2025-05-07T19:43:16.0890617Z 
2025-05-07T19:43:16.0890622Z 
2025-05-07T19:43:16.0890632Z 
2025-05-07T19:43:16.0890636Z 
2025-05-07T19:43:16.0890640Z 
2025-05-07T19:43:16.0890644Z 
2025-05-07T19:43:16.0890650Z 
2025-05-07T19:43:16.0890654Z 
2025-05-07T19:43:16.0890658Z 
2025-05-07T19:43:16.0890662Z 
2025-05-07T19:43:16.0891247Z 
2025-05-07T19:43:16.0894650Z font-ttf-source-code | 684 KB    |            |   0% [A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0894963Z 
2025-05-07T19:43:16.0894970Z 
2025-05-07T19:43:16.0894977Z 
2025-05-07T19:43:16.0894984Z 
2025-05-07T19:43:16.0894990Z 
2025-05-07T19:43:16.0894996Z 
2025-05-07T19:43:16.0895009Z 
2025-05-07T19:43:16.0895016Z 
2025-05-07T19:43:16.0895022Z 
2025-05-07T19:43:16.0895028Z 
2025-05-07T19:43:16.0895033Z 
2025-05-07T19:43:16.0895037Z 
2025-05-07T19:43:16.0895051Z 
2025-05-07T19:43:16.0895056Z 
2025-05-07T19:43:16.0896352Z 
2025-05-07T19:43:16.0901384Z libjpeg-turbo-3.1.0  | 638 KB    |            |   0% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0901677Z 
2025-05-07T19:43:16.0901682Z 
2025-05-07T19:43:16.0901686Z 
2025-05-07T19:43:16.0901691Z 
2025-05-07T19:43:16.0901695Z 
2025-05-07T19:43:16.0901699Z 
2025-05-07T19:43:16.0901703Z 
2025-05-07T19:43:16.0901707Z 
2025-05-07T19:43:16.0901719Z 
2025-05-07T19:43:16.0901723Z 
2025-05-07T19:43:16.0901728Z 
2025-05-07T19:43:16.0901746Z 
2025-05-07T19:43:16.0901750Z 
2025-05-07T19:43:16.0901755Z 
2025-05-07T19:43:16.0901759Z 
2025-05-07T19:43:16.0901767Z 
2025-05-07T19:43:16.0902325Z alsa-lib-1.2.14      | 581 KB    |            |   0% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0902587Z 
2025-05-07T19:43:16.0902592Z 
2025-05-07T19:43:16.0902603Z 
2025-05-07T19:43:16.0902608Z 
2025-05-07T19:43:16.0902612Z 
2025-05-07T19:43:16.0902617Z 
2025-05-07T19:43:16.0902635Z 
2025-05-07T19:43:16.0902639Z 
2025-05-07T19:43:16.0902644Z 
2025-05-07T19:43:16.0902648Z 
2025-05-07T19:43:16.0902652Z 
2025-05-07T19:43:16.0902656Z 
2025-05-07T19:43:16.0902660Z 
2025-05-07T19:43:16.0902664Z 
2025-05-07T19:43:16.0902668Z 
2025-05-07T19:43:16.0902672Z 
2025-05-07T19:43:16.0903420Z 
2025-05-07T19:43:16.0904644Z make-4.4.1           | 516 KB    |            |   0% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0904900Z 
2025-05-07T19:43:16.0904904Z 
2025-05-07T19:43:16.0904908Z 
2025-05-07T19:43:16.0904913Z 
2025-05-07T19:43:16.0905128Z 
2025-05-07T19:43:16.0905133Z 
2025-05-07T19:43:16.0905137Z 
2025-05-07T19:43:16.0905141Z 
2025-05-07T19:43:16.0905145Z 
2025-05-07T19:43:16.0905149Z 
2025-05-07T19:43:16.0905153Z 
2025-05-07T19:43:16.0905157Z 
2025-05-07T19:43:16.0905161Z 
2025-05-07T19:43:16.0905164Z 
2025-05-07T19:43:16.0905168Z 
2025-05-07T19:43:16.0905172Z 
2025-05-07T19:43:16.0905176Z 
2025-05-07T19:43:16.0905183Z 
2025-05-07T19:43:16.0906451Z libtiff-4.7.0        | 453 KB    |            |   0% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.0907841Z 
2025-05-07T19:43:16.0907847Z 
2025-05-07T19:43:16.0907853Z 
2025-05-07T19:43:16.0907858Z 
2025-05-07T19:43:16.0907864Z 
2025-05-07T19:43:16.0907869Z 
2025-05-07T19:43:16.0907889Z 
2025-05-07T19:43:16.0907894Z 
2025-05-07T19:43:16.0907899Z 
2025-05-07T19:43:16.0907910Z 
2025-05-07T19:43:16.0907915Z 
2025-05-07T19:43:16.0907920Z 
2025-05-07T19:43:16.0907926Z 
2025-05-07T19:43:16.0907931Z 
2025-05-07T19:43:16.0907936Z 
2025-05-07T19:43:16.0907950Z 
2025-05-07T19:43:16.0907954Z 
2025-05-07T19:43:16.0907960Z 
2025-05-07T19:43:16.0907965Z 
2025-05-07T19:43:16.1771520Z  ... (more hidden) ...[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.1779448Z openjdk-23.0.2       | 174.2 MB  |            |   1% 
2025-05-07T19:43:16.1781032Z 
2025-05-07T19:43:16.1799186Z bazel-7.5.0          | 45.4 MB   | 4          |   4% [A
2025-05-07T19:43:16.1799406Z 
2025-05-07T19:43:16.1801898Z 
2025-05-07T19:43:16.1803989Z cmake-4.0.2          | 19.0 MB   |            |   0% [A[A
2025-05-07T19:43:16.1804204Z 
2025-05-07T19:43:16.1804212Z 
2025-05-07T19:43:16.1805980Z 
2025-05-07T19:43:16.1817248Z libgrpc-1.71.0       | 7.4 MB    | ##4        |  25% [A[A[A
2025-05-07T19:43:16.1817488Z 
2025-05-07T19:43:16.1817493Z 
2025-05-07T19:43:16.1817498Z 
2025-05-07T19:43:16.1818953Z 
2025-05-07T19:43:16.2399578Z openblas-0.3.29      | 4.7 MB    | ######3    |  63% [A[A[A[A
2025-05-07T19:43:16.2399849Z 
2025-05-07T19:43:16.2399855Z 
2025-05-07T19:43:16.2399892Z 
2025-05-07T19:43:16.2399898Z 
2025-05-07T19:43:16.2771575Z openblas-0.3.29      | 4.7 MB    | ########## | 100% [A[A[A[A
2025-05-07T19:43:16.2826339Z openjdk-23.0.2       | 174.2 MB  | 6          |   6% 
2025-05-07T19:43:16.2826556Z 
2025-05-07T19:43:16.2826561Z 
2025-05-07T19:43:16.2828840Z 
2025-05-07T19:43:16.2830350Z libgrpc-1.71.0       | 7.4 MB    | ########## | 100% [A[A[A
2025-05-07T19:43:16.2830578Z 
2025-05-07T19:43:16.2830618Z 
2025-05-07T19:43:16.2831249Z 
2025-05-07T19:43:16.2875068Z libgrpc-1.71.0       | 7.4 MB    | ########## | 100% [A[A[A
2025-05-07T19:43:16.2875326Z 
2025-05-07T19:43:16.2875740Z 
2025-05-07T19:43:16.2879040Z cmake-4.0.2          | 19.0 MB   | ###1       |  32% [A[A
2025-05-07T19:43:16.2879271Z 
2025-05-07T19:43:16.2879276Z 
2025-05-07T19:43:16.2879281Z 
2025-05-07T19:43:16.2879286Z 
2025-05-07T19:43:16.2879415Z 
2025-05-07T19:43:16.2890700Z libopenblas-0.3.29   | 4.6 MB    |            |   0% [A[A[A[A[A
2025-05-07T19:43:16.2892365Z 
2025-05-07T19:43:16.3160821Z bazel-7.5.0          | 45.4 MB   | ##1        |  21% [A
2025-05-07T19:43:16.3161038Z 
2025-05-07T19:43:16.3161044Z 
2025-05-07T19:43:16.3161049Z 
2025-05-07T19:43:16.3161056Z 
2025-05-07T19:43:16.3161062Z 
2025-05-07T19:43:16.3162207Z 
2025-05-07T19:43:16.3791310Z libcups-2.3.3        | 4.3 MB    |            |   0% [A[A[A[A[A[A
2025-05-07T19:43:16.3876544Z openjdk-23.0.2       | 174.2 MB  | #          |  10% 
2025-05-07T19:43:16.3876815Z 
2025-05-07T19:43:16.3877386Z 
2025-05-07T19:43:16.3890859Z cmake-4.0.2          | 19.0 MB   | ######1    |  62% [A[A
2025-05-07T19:43:16.3892483Z 
2025-05-07T19:43:16.4115969Z bazel-7.5.0          | 45.4 MB   | ###4       |  35% [A
2025-05-07T19:43:16.4116192Z 
2025-05-07T19:43:16.4116198Z 
2025-05-07T19:43:16.4116203Z 
2025-05-07T19:43:16.4116209Z 
2025-05-07T19:43:16.4116215Z 
2025-05-07T19:43:16.4121057Z libopenblas-0.3.29   | 4.6 MB    | ########## | 100% [A[A[A[A[A
2025-05-07T19:43:16.4121317Z 
2025-05-07T19:43:16.4121323Z 
2025-05-07T19:43:16.4121662Z 
2025-05-07T19:43:16.4121672Z 
2025-05-07T19:43:16.4122035Z 
2025-05-07T19:43:16.4447120Z libopenblas-0.3.29   | 4.6 MB    | ########## | 100% [A[A[A[A[A
2025-05-07T19:43:16.4447384Z 
2025-05-07T19:43:16.4447390Z 
2025-05-07T19:43:16.4447395Z 
2025-05-07T19:43:16.4447401Z 
2025-05-07T19:43:16.4447407Z 
2025-05-07T19:43:16.4447746Z 
2025-05-07T19:43:16.4448353Z libcups-2.3.3        | 4.3 MB    | ########## | 100% [A[A[A[A[A[A
2025-05-07T19:43:16.4448798Z 
2025-05-07T19:43:16.4448802Z 
2025-05-07T19:43:16.4448806Z 
2025-05-07T19:43:16.4448815Z 
2025-05-07T19:43:16.4448819Z 
2025-05-07T19:43:16.4448823Z 
2025-05-07T19:43:16.4518034Z libcups-2.3.3        | 4.3 MB    | ########## | 100% [A[A[A[A[A[A
2025-05-07T19:43:16.4518264Z 
2025-05-07T19:43:16.4518269Z 
2025-05-07T19:43:16.4518279Z 
2025-05-07T19:43:16.4518283Z 
2025-05-07T19:43:16.4518287Z 
2025-05-07T19:43:16.4518291Z 
2025-05-07T19:43:16.4518537Z 
2025-05-07T19:43:16.4791510Z libprotobuf-5.29.3   | 3.0 MB    |            |   1% [A[A[A[A[A[A[A
2025-05-07T19:43:16.4903029Z openjdk-23.0.2       | 174.2 MB  | #4         |  14% 
2025-05-07T19:43:16.4904174Z 
2025-05-07T19:43:16.5062844Z bazel-7.5.0          | 45.4 MB   | ####8      |  49% [A
2025-05-07T19:43:16.5063055Z 
2025-05-07T19:43:16.5063071Z 
2025-05-07T19:43:16.5063076Z 
2025-05-07T19:43:16.5063081Z 
2025-05-07T19:43:16.5063085Z 
2025-05-07T19:43:16.5063089Z 
2025-05-07T19:43:16.5063643Z 
2025-05-07T19:43:16.5134858Z libprotobuf-5.29.3   | 3.0 MB    | ########## | 100% [A[A[A[A[A[A[A
2025-05-07T19:43:16.5135138Z 
2025-05-07T19:43:16.5135147Z 
2025-05-07T19:43:16.5135153Z 
2025-05-07T19:43:16.5135159Z 
2025-05-07T19:43:16.5135166Z 
2025-05-07T19:43:16.5135172Z 
2025-05-07T19:43:16.5135178Z 
2025-05-07T19:43:16.5135258Z 
2025-05-07T19:43:16.5408727Z harfbuzz-11.1.0      | 1.7 MB    |            |   1% [A[A[A[A[A[A[A[A
2025-05-07T19:43:16.5408982Z 
2025-05-07T19:43:16.5408988Z 
2025-05-07T19:43:16.5408993Z 
2025-05-07T19:43:16.5408998Z 
2025-05-07T19:43:16.5409025Z 
2025-05-07T19:43:16.5409036Z 
2025-05-07T19:43:16.5409042Z 
2025-05-07T19:43:16.5409047Z 
2025-05-07T19:43:16.5411033Z 
2025-05-07T19:43:16.5704517Z font-ttf-ubuntu-0.83 | 1.5 MB    | 1          |   1% [A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.5704798Z 
2025-05-07T19:43:16.5704803Z 
2025-05-07T19:43:16.5704808Z 
2025-05-07T19:43:16.5704813Z 
2025-05-07T19:43:16.5704817Z 
2025-05-07T19:43:16.5704821Z 
2025-05-07T19:43:16.5704825Z 
2025-05-07T19:43:16.5704859Z 
2025-05-07T19:43:16.5705326Z 
2025-05-07T19:43:16.5773513Z font-ttf-ubuntu-0.83 | 1.5 MB    | ########## | 100% [A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.5773830Z 
2025-05-07T19:43:16.5773835Z 
2025-05-07T19:43:16.5773839Z 
2025-05-07T19:43:16.5773843Z 
2025-05-07T19:43:16.5773847Z 
2025-05-07T19:43:16.5773853Z 
2025-05-07T19:43:16.5773857Z 
2025-05-07T19:43:16.5773869Z 
2025-05-07T19:43:16.5792946Z harfbuzz-11.1.0      | 1.7 MB    | ########## | 100% [A[A[A[A[A[A[A[A
2025-05-07T19:43:16.5911559Z openjdk-23.0.2       | 174.2 MB  | #9         |  19% 
2025-05-07T19:43:16.5911967Z 
2025-05-07T19:43:16.6160144Z bazel-7.5.0          | 45.4 MB   | ######1    |  61% [A
2025-05-07T19:43:16.6160388Z 
2025-05-07T19:43:16.6160394Z 
2025-05-07T19:43:16.6160400Z 
2025-05-07T19:43:16.6160405Z 
2025-05-07T19:43:16.6160419Z 
2025-05-07T19:43:16.6160425Z 
2025-05-07T19:43:16.6160430Z 
2025-05-07T19:43:16.6160436Z 
2025-05-07T19:43:16.6160441Z 
2025-05-07T19:43:16.6160447Z 
2025-05-07T19:43:16.6160499Z 
2025-05-07T19:43:16.6180225Z libgfortran5-14.2.0  | 1.0 MB    | 1          |   1% [A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.6180502Z 
2025-05-07T19:43:16.6180507Z 
2025-05-07T19:43:16.6180523Z 
2025-05-07T19:43:16.6180527Z 
2025-05-07T19:43:16.6180530Z 
2025-05-07T19:43:16.6180535Z 
2025-05-07T19:43:16.6180541Z 
2025-05-07T19:43:16.6180547Z 
2025-05-07T19:43:16.6180551Z 
2025-05-07T19:43:16.6182950Z 
2025-05-07T19:43:16.6537235Z libabseil-20250127.1 | 1.3 MB    | 1          |   1% [A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.6537937Z 
2025-05-07T19:43:16.6537945Z 
2025-05-07T19:43:16.6537949Z 
2025-05-07T19:43:16.6537972Z 
2025-05-07T19:43:16.6537982Z 
2025-05-07T19:43:16.6537986Z 
2025-05-07T19:43:16.6537990Z 
2025-05-07T19:43:16.6537994Z 
2025-05-07T19:43:16.6537997Z 
2025-05-07T19:43:16.6538222Z 
2025-05-07T19:43:16.6587055Z libabseil-20250127.1 | 1.3 MB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.6587342Z 
2025-05-07T19:43:16.6588204Z 
2025-05-07T19:43:16.6606681Z cmake-4.0.2          | 19.0 MB   | ########4  |  85% [A[A
2025-05-07T19:43:16.6606912Z 
2025-05-07T19:43:16.6606916Z 
2025-05-07T19:43:16.6606921Z 
2025-05-07T19:43:16.6606938Z 
2025-05-07T19:43:16.6606942Z 
2025-05-07T19:43:16.6606948Z 
2025-05-07T19:43:16.6606954Z 
2025-05-07T19:43:16.6606961Z 
2025-05-07T19:43:16.6606967Z 
2025-05-07T19:43:16.6606972Z 
2025-05-07T19:43:16.6607672Z 
2025-05-07T19:43:16.6793619Z libgfortran5-14.2.0  | 1.0 MB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.6905421Z openjdk-23.0.2       | 174.2 MB  | ##4        |  24% 
2025-05-07T19:43:16.6905647Z 
2025-05-07T19:43:16.6905652Z 
2025-05-07T19:43:16.6905659Z 
2025-05-07T19:43:16.6905663Z 
2025-05-07T19:43:16.6907390Z 
2025-05-07T19:43:16.6923844Z libopenblas-0.3.29   | 4.6 MB    | ########## | 100% [A[A[A[A[A
2025-05-07T19:43:16.6924858Z 
2025-05-07T19:43:16.6956583Z bazel-7.5.0          | 45.4 MB   | #######3   |  74% [A
2025-05-07T19:43:16.6956798Z 
2025-05-07T19:43:16.6956832Z 
2025-05-07T19:43:16.6956836Z 
2025-05-07T19:43:16.6956840Z 
2025-05-07T19:43:16.6956844Z 
2025-05-07T19:43:16.6956848Z 
2025-05-07T19:43:16.6956852Z 
2025-05-07T19:43:16.6956855Z 
2025-05-07T19:43:16.6956859Z 
2025-05-07T19:43:16.6956863Z 
2025-05-07T19:43:16.6956867Z 
2025-05-07T19:43:16.6958472Z 
2025-05-07T19:43:16.7005580Z cairo-1.18.4         | 944 KB    | 1          |   2% [A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.7005829Z 
2025-05-07T19:43:16.7005833Z 
2025-05-07T19:43:16.7005837Z 
2025-05-07T19:43:16.7005841Z 
2025-05-07T19:43:16.7005858Z 
2025-05-07T19:43:16.7005869Z 
2025-05-07T19:43:16.7005873Z 
2025-05-07T19:43:16.7005877Z 
2025-05-07T19:43:16.7005881Z 
2025-05-07T19:43:16.7005885Z 
2025-05-07T19:43:16.7005888Z 
2025-05-07T19:43:16.7005892Z 
2025-05-07T19:43:16.7008915Z 
2025-05-07T19:43:16.7056999Z xorg-libx11-1.8.12   | 845 KB    | 1          |   2% [A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.7057272Z 
2025-05-07T19:43:16.7057276Z 
2025-05-07T19:43:16.7057289Z 
2025-05-07T19:43:16.7059259Z 
2025-05-07T19:43:16.7266788Z openblas-0.3.29      | 4.7 MB    | ########## | 100% [A[A[A[A
2025-05-07T19:43:16.7267032Z 
2025-05-07T19:43:16.7267036Z 
2025-05-07T19:43:16.7267040Z 
2025-05-07T19:43:16.7267045Z 
2025-05-07T19:43:16.7267048Z 
2025-05-07T19:43:16.7267058Z 
2025-05-07T19:43:16.7267062Z 
2025-05-07T19:43:16.7267066Z 
2025-05-07T19:43:16.7267070Z 
2025-05-07T19:43:16.7267074Z 
2025-05-07T19:43:16.7267078Z 
2025-05-07T19:43:16.7269971Z 
2025-05-07T19:43:16.7450379Z cairo-1.18.4         | 944 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.7450630Z 
2025-05-07T19:43:16.7450634Z 
2025-05-07T19:43:16.7450638Z 
2025-05-07T19:43:16.7450642Z 
2025-05-07T19:43:16.7450646Z 
2025-05-07T19:43:16.7450650Z 
2025-05-07T19:43:16.7450660Z 
2025-05-07T19:43:16.7450664Z 
2025-05-07T19:43:16.7450668Z 
2025-05-07T19:43:16.7450674Z 
2025-05-07T19:43:16.7450678Z 
2025-05-07T19:43:16.7450682Z 
2025-05-07T19:43:16.7451761Z 
2025-05-07T19:43:16.7670353Z xorg-libx11-1.8.12   | 845 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.7670636Z 
2025-05-07T19:43:16.7670651Z 
2025-05-07T19:43:16.7670656Z 
2025-05-07T19:43:16.7670664Z 
2025-05-07T19:43:16.7670668Z 
2025-05-07T19:43:16.7670672Z 
2025-05-07T19:43:16.7670675Z 
2025-05-07T19:43:16.7670679Z 
2025-05-07T19:43:16.7670683Z 
2025-05-07T19:43:16.7670687Z 
2025-05-07T19:43:16.7670691Z 
2025-05-07T19:43:16.7670695Z 
2025-05-07T19:43:16.7670699Z 
2025-05-07T19:43:16.7671460Z 
2025-05-07T19:43:16.7808648Z font-ttf-source-code | 684 KB    | 2          |   2% [A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.7827978Z openjdk-23.0.2       | 174.2 MB  | ##8        |  29% 
2025-05-07T19:43:16.7828194Z 
2025-05-07T19:43:16.7828199Z 
2025-05-07T19:43:16.7828205Z 
2025-05-07T19:43:16.7828214Z 
2025-05-07T19:43:16.7828223Z 
2025-05-07T19:43:16.7828228Z 
2025-05-07T19:43:16.7828234Z 
2025-05-07T19:43:16.7828240Z 
2025-05-07T19:43:16.7828245Z 
2025-05-07T19:43:16.7828486Z 
2025-05-07T19:43:16.7828491Z 
2025-05-07T19:43:16.7828497Z 
2025-05-07T19:43:16.7828502Z 
2025-05-07T19:43:16.7829514Z 
2025-05-07T19:43:16.7833338Z font-ttf-source-code | 684 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.7833650Z 
2025-05-07T19:43:16.7833658Z 
2025-05-07T19:43:16.7833665Z 
2025-05-07T19:43:16.7833673Z 
2025-05-07T19:43:16.7833679Z 
2025-05-07T19:43:16.7833684Z 
2025-05-07T19:43:16.7833690Z 
2025-05-07T19:43:16.7833700Z 
2025-05-07T19:43:16.7833704Z 
2025-05-07T19:43:16.7833708Z 
2025-05-07T19:43:16.7833729Z 
2025-05-07T19:43:16.7833733Z 
2025-05-07T19:43:16.7833739Z 
2025-05-07T19:43:16.7833743Z 
2025-05-07T19:43:16.7835114Z 
2025-05-07T19:43:16.7926474Z libjpeg-turbo-3.1.0  | 638 KB    | 2          |   3% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.7927799Z 
2025-05-07T19:43:16.8018074Z bazel-7.5.0          | 45.4 MB   | ########7  |  87% [A
2025-05-07T19:43:16.8018286Z 
2025-05-07T19:43:16.8018293Z 
2025-05-07T19:43:16.8018317Z 
2025-05-07T19:43:16.8018324Z 
2025-05-07T19:43:16.8018330Z 
2025-05-07T19:43:16.8018334Z 
2025-05-07T19:43:16.8018337Z 
2025-05-07T19:43:16.8018341Z 
2025-05-07T19:43:16.8018345Z 
2025-05-07T19:43:16.8018355Z 
2025-05-07T19:43:16.8018359Z 
2025-05-07T19:43:16.8018363Z 
2025-05-07T19:43:16.8018368Z 
2025-05-07T19:43:16.8018372Z 
2025-05-07T19:43:16.8019260Z 
2025-05-07T19:43:16.8232274Z libjpeg-turbo-3.1.0  | 638 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.8232596Z 
2025-05-07T19:43:16.8232629Z 
2025-05-07T19:43:16.8232635Z 
2025-05-07T19:43:16.8232655Z 
2025-05-07T19:43:16.8232661Z 
2025-05-07T19:43:16.8232665Z 
2025-05-07T19:43:16.8232669Z 
2025-05-07T19:43:16.8232673Z 
2025-05-07T19:43:16.8232677Z 
2025-05-07T19:43:16.8232681Z 
2025-05-07T19:43:16.8232685Z 
2025-05-07T19:43:16.8232689Z 
2025-05-07T19:43:16.8232693Z 
2025-05-07T19:43:16.8232696Z 
2025-05-07T19:43:16.8232702Z 
2025-05-07T19:43:16.8232994Z 
2025-05-07T19:43:16.8398733Z alsa-lib-1.2.14      | 581 KB    | 2          |   3% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.8399090Z 
2025-05-07T19:43:16.8399097Z 
2025-05-07T19:43:16.8399104Z 
2025-05-07T19:43:16.8399110Z 
2025-05-07T19:43:16.8399116Z 
2025-05-07T19:43:16.8399122Z 
2025-05-07T19:43:16.8399129Z 
2025-05-07T19:43:16.8399135Z 
2025-05-07T19:43:16.8399140Z 
2025-05-07T19:43:16.8399144Z 
2025-05-07T19:43:16.8399148Z 
2025-05-07T19:43:16.8399157Z 
2025-05-07T19:43:16.8399161Z 
2025-05-07T19:43:16.8399165Z 
2025-05-07T19:43:16.8399169Z 
2025-05-07T19:43:16.8399189Z 
2025-05-07T19:43:16.8441231Z alsa-lib-1.2.14      | 581 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.8441524Z 
2025-05-07T19:43:16.8441531Z 
2025-05-07T19:43:16.8441536Z 
2025-05-07T19:43:16.8441546Z 
2025-05-07T19:43:16.8441553Z 
2025-05-07T19:43:16.8441558Z 
2025-05-07T19:43:16.8441564Z 
2025-05-07T19:43:16.8441569Z 
2025-05-07T19:43:16.8441573Z 
2025-05-07T19:43:16.8441577Z 
2025-05-07T19:43:16.8441598Z 
2025-05-07T19:43:16.8441609Z 
2025-05-07T19:43:16.8441613Z 
2025-05-07T19:43:16.8441617Z 
2025-05-07T19:43:16.8441621Z 
2025-05-07T19:43:16.8441625Z 
2025-05-07T19:43:16.8442199Z 
2025-05-07T19:43:16.8716805Z make-4.4.1           | 516 KB    | 3          |   3% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.8717099Z 
2025-05-07T19:43:16.8717106Z 
2025-05-07T19:43:16.8717112Z 
2025-05-07T19:43:16.8717118Z 
2025-05-07T19:43:16.8717122Z 
2025-05-07T19:43:16.8717128Z 
2025-05-07T19:43:16.8717132Z 
2025-05-07T19:43:16.8717480Z 
2025-05-07T19:43:16.8717488Z 
2025-05-07T19:43:16.8717494Z 
2025-05-07T19:43:16.8717509Z 
2025-05-07T19:43:16.8717518Z 
2025-05-07T19:43:16.8717522Z 
2025-05-07T19:43:16.8717527Z 
2025-05-07T19:43:16.8717532Z 
2025-05-07T19:43:16.8717537Z 
2025-05-07T19:43:16.8717718Z 
2025-05-07T19:43:16.8814639Z make-4.4.1           | 516 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.8883888Z openjdk-23.0.2       | 174.2 MB  | ###3       |  33% 
2025-05-07T19:43:16.8884416Z 
2025-05-07T19:43:16.8884421Z 
2025-05-07T19:43:16.8884429Z 
2025-05-07T19:43:16.8884434Z 
2025-05-07T19:43:16.8884448Z 
2025-05-07T19:43:16.8884453Z 
2025-05-07T19:43:16.8884459Z 
2025-05-07T19:43:16.8884465Z 
2025-05-07T19:43:16.8884469Z 
2025-05-07T19:43:16.8884473Z 
2025-05-07T19:43:16.8884477Z 
2025-05-07T19:43:16.8884482Z 
2025-05-07T19:43:16.8884486Z 
2025-05-07T19:43:16.8884491Z 
2025-05-07T19:43:16.8884495Z 
2025-05-07T19:43:16.8884499Z 
2025-05-07T19:43:16.8884504Z 
2025-05-07T19:43:16.8884736Z 
2025-05-07T19:43:16.8983949Z libtiff-4.7.0        | 453 KB    | 3          |   4% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.8984246Z 
2025-05-07T19:43:16.8984253Z 
2025-05-07T19:43:16.8984261Z 
2025-05-07T19:43:16.8984284Z 
2025-05-07T19:43:16.8984290Z 
2025-05-07T19:43:16.8984296Z 
2025-05-07T19:43:16.8984302Z 
2025-05-07T19:43:16.8984308Z 
2025-05-07T19:43:16.8984313Z 
2025-05-07T19:43:16.8984318Z 
2025-05-07T19:43:16.8984343Z 
2025-05-07T19:43:16.8984349Z 
2025-05-07T19:43:16.8984355Z 
2025-05-07T19:43:16.8984361Z 
2025-05-07T19:43:16.8984367Z 
2025-05-07T19:43:16.8984373Z 
2025-05-07T19:43:16.8984378Z 
2025-05-07T19:43:16.8987105Z 
2025-05-07T19:43:16.9045114Z libtiff-4.7.0        | 453 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.9045415Z 
2025-05-07T19:43:16.9045427Z 
2025-05-07T19:43:16.9045431Z 
2025-05-07T19:43:16.9045436Z 
2025-05-07T19:43:16.9045442Z 
2025-05-07T19:43:16.9045446Z 
2025-05-07T19:43:16.9045473Z 
2025-05-07T19:43:16.9045478Z 
2025-05-07T19:43:16.9045482Z 
2025-05-07T19:43:16.9045488Z 
2025-05-07T19:43:16.9045493Z 
2025-05-07T19:43:16.9045497Z 
2025-05-07T19:43:16.9045501Z 
2025-05-07T19:43:16.9045507Z 
2025-05-07T19:43:16.9045513Z 
2025-05-07T19:43:16.9045518Z 
2025-05-07T19:43:16.9045522Z 
2025-05-07T19:43:16.9045527Z 
2025-05-07T19:43:16.9045857Z 
2025-05-07T19:43:16.9192337Z  ... (more hidden) ...[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.9192620Z 
2025-05-07T19:43:16.9192626Z 
2025-05-07T19:43:16.9192631Z 
2025-05-07T19:43:16.9192644Z 
2025-05-07T19:43:16.9192650Z 
2025-05-07T19:43:16.9192655Z 
2025-05-07T19:43:16.9192662Z 
2025-05-07T19:43:16.9192666Z 
2025-05-07T19:43:16.9192671Z 
2025-05-07T19:43:16.9192675Z 
2025-05-07T19:43:16.9192679Z 
2025-05-07T19:43:16.9192683Z 
2025-05-07T19:43:16.9192687Z 
2025-05-07T19:43:16.9192691Z 
2025-05-07T19:43:16.9192695Z 
2025-05-07T19:43:16.9192700Z 
2025-05-07T19:43:16.9192704Z 
2025-05-07T19:43:16.9192708Z 
2025-05-07T19:43:16.9193018Z 
2025-05-07T19:43:16.9309144Z  ... (more hidden) ...[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:16.9309398Z 
2025-05-07T19:43:16.9309941Z 
2025-05-07T19:43:16.9814936Z cmake-4.0.2          | 19.0 MB   | ########## | 100% [A[A
2025-05-07T19:43:17.0024225Z openjdk-23.0.2       | 174.2 MB  | ###8       |  38% 
2025-05-07T19:43:17.0024440Z 
2025-05-07T19:43:17.0024446Z 
2025-05-07T19:43:17.0024452Z 
2025-05-07T19:43:17.0024860Z 
2025-05-07T19:43:17.0024870Z 
2025-05-07T19:43:17.0024877Z 
2025-05-07T19:43:17.0817051Z libcups-2.3.3        | 4.3 MB    | ########## | 100% [A[A[A[A[A[A
2025-05-07T19:43:17.1101410Z openjdk-23.0.2       | 174.2 MB  | ####3      |  44% 
2025-05-07T19:43:17.1101630Z 
2025-05-07T19:43:17.1101635Z 
2025-05-07T19:43:17.1101641Z 
2025-05-07T19:43:17.1101646Z 
2025-05-07T19:43:17.1101651Z 
2025-05-07T19:43:17.1101656Z 
2025-05-07T19:43:17.1101661Z 
2025-05-07T19:43:17.1101669Z 
2025-05-07T19:43:17.1102509Z 
2025-05-07T19:43:17.1111030Z font-ttf-ubuntu-0.83 | 1.5 MB    | ########## | 100% [A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.1111326Z 
2025-05-07T19:43:17.1111331Z 
2025-05-07T19:43:17.1111346Z 
2025-05-07T19:43:17.1111351Z 
2025-05-07T19:43:17.1111356Z 
2025-05-07T19:43:17.1111360Z 
2025-05-07T19:43:17.1111365Z 
2025-05-07T19:43:17.1111369Z 
2025-05-07T19:43:17.1111375Z 
2025-05-07T19:43:17.1818444Z font-ttf-ubuntu-0.83 | 1.5 MB    | ########## | 100% [A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.1853539Z openjdk-23.0.2       | 174.2 MB  | ####9      |  49% 
2025-05-07T19:43:17.1853763Z 
2025-05-07T19:43:17.1853770Z 
2025-05-07T19:43:17.1855700Z 
2025-05-07T19:43:17.2817766Z libgrpc-1.71.0       | 7.4 MB    | ########## | 100% [A[A[A
2025-05-07T19:43:17.3199104Z openjdk-23.0.2       | 174.2 MB  | #####4     |  55% 
2025-05-07T19:43:17.3200231Z 
2025-05-07T19:43:17.3381814Z bazel-7.5.0          | 45.4 MB   | ########## | 100% [A
2025-05-07T19:43:17.3382053Z 
2025-05-07T19:43:17.3382060Z 
2025-05-07T19:43:17.3382084Z 
2025-05-07T19:43:17.3382119Z 
2025-05-07T19:43:17.3382125Z 
2025-05-07T19:43:17.3382132Z 
2025-05-07T19:43:17.3382137Z 
2025-05-07T19:43:17.3382559Z 
2025-05-07T19:43:17.3385752Z harfbuzz-11.1.0      | 1.7 MB    | ########## | 100% [A[A[A[A[A[A[A[A
2025-05-07T19:43:17.3386010Z 
2025-05-07T19:43:17.3386015Z 
2025-05-07T19:43:17.3386021Z 
2025-05-07T19:43:17.3386026Z 
2025-05-07T19:43:17.3386031Z 
2025-05-07T19:43:17.3386036Z 
2025-05-07T19:43:17.3386183Z 
2025-05-07T19:43:17.3386206Z 
2025-05-07T19:43:17.3819005Z harfbuzz-11.1.0      | 1.7 MB    | ########## | 100% [A[A[A[A[A[A[A[A
2025-05-07T19:43:17.4102354Z openjdk-23.0.2       | 174.2 MB  | ######     |  60% 
2025-05-07T19:43:17.4102577Z 
2025-05-07T19:43:17.4102583Z 
2025-05-07T19:43:17.4102589Z 
2025-05-07T19:43:17.4102595Z 
2025-05-07T19:43:17.4102600Z 
2025-05-07T19:43:17.4102604Z 
2025-05-07T19:43:17.4106845Z 
2025-05-07T19:43:17.4114677Z libprotobuf-5.29.3   | 3.0 MB    | ########## | 100% [A[A[A[A[A[A[A
2025-05-07T19:43:17.4114940Z 
2025-05-07T19:43:17.4114968Z 
2025-05-07T19:43:17.4114973Z 
2025-05-07T19:43:17.4114977Z 
2025-05-07T19:43:17.4114981Z 
2025-05-07T19:43:17.4114985Z 
2025-05-07T19:43:17.4115625Z 
2025-05-07T19:43:17.4863561Z libprotobuf-5.29.3   | 3.0 MB    | ########## | 100% [A[A[A[A[A[A[A
2025-05-07T19:43:17.5003333Z openjdk-23.0.2       | 174.2 MB  | ######5    |  65% 
2025-05-07T19:43:17.5003560Z 
2025-05-07T19:43:17.5003567Z 
2025-05-07T19:43:17.5003574Z 
2025-05-07T19:43:17.5003625Z 
2025-05-07T19:43:17.5003632Z 
2025-05-07T19:43:17.5003643Z 
2025-05-07T19:43:17.5003651Z 
2025-05-07T19:43:17.5003658Z 
2025-05-07T19:43:17.5003664Z 
2025-05-07T19:43:17.5003670Z 
2025-05-07T19:43:17.5003964Z 
2025-05-07T19:43:17.5008535Z libgfortran5-14.2.0  | 1.0 MB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.5008810Z 
2025-05-07T19:43:17.5008821Z 
2025-05-07T19:43:17.5008841Z 
2025-05-07T19:43:17.5008849Z 
2025-05-07T19:43:17.5008854Z 
2025-05-07T19:43:17.5008862Z 
2025-05-07T19:43:17.5008866Z 
2025-05-07T19:43:17.5008884Z 
2025-05-07T19:43:17.5008889Z 
2025-05-07T19:43:17.5008893Z 
2025-05-07T19:43:17.5009032Z 
2025-05-07T19:43:17.5541553Z libgfortran5-14.2.0  | 1.0 MB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.5541856Z 
2025-05-07T19:43:17.5541861Z 
2025-05-07T19:43:17.5541865Z 
2025-05-07T19:43:17.5541883Z 
2025-05-07T19:43:17.5541887Z 
2025-05-07T19:43:17.5541893Z 
2025-05-07T19:43:17.5541898Z 
2025-05-07T19:43:17.5541930Z 
2025-05-07T19:43:17.5541934Z 
2025-05-07T19:43:17.5541938Z 
2025-05-07T19:43:17.5541941Z 
2025-05-07T19:43:17.5543483Z 
2025-05-07T19:43:17.5547170Z cairo-1.18.4         | 944 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.5547424Z 
2025-05-07T19:43:17.5547429Z 
2025-05-07T19:43:17.5547439Z 
2025-05-07T19:43:17.5547444Z 
2025-05-07T19:43:17.5547447Z 
2025-05-07T19:43:17.5547451Z 
2025-05-07T19:43:17.5547455Z 
2025-05-07T19:43:17.5547459Z 
2025-05-07T19:43:17.5547463Z 
2025-05-07T19:43:17.5547467Z 
2025-05-07T19:43:17.5547818Z 
2025-05-07T19:43:17.5548172Z 
2025-05-07T19:43:17.5863895Z cairo-1.18.4         | 944 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.6938100Z openjdk-23.0.2       | 174.2 MB  | #######1   |  72% 
2025-05-07T19:43:17.6988777Z openjdk-23.0.2       | 174.2 MB  | #######7   |  77% 
2025-05-07T19:43:17.6988989Z 
2025-05-07T19:43:17.6988995Z 
2025-05-07T19:43:17.6989000Z 
2025-05-07T19:43:17.6989026Z 
2025-05-07T19:43:17.6989371Z 
2025-05-07T19:43:17.6989376Z 
2025-05-07T19:43:17.6989381Z 
2025-05-07T19:43:17.6989386Z 
2025-05-07T19:43:17.6989392Z 
2025-05-07T19:43:17.6989398Z 
2025-05-07T19:43:17.6989404Z 
2025-05-07T19:43:17.6989408Z 
2025-05-07T19:43:17.6990177Z 
2025-05-07T19:43:17.6995572Z xorg-libx11-1.8.12   | 845 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.6995860Z 
2025-05-07T19:43:17.6995866Z 
2025-05-07T19:43:17.6995870Z 
2025-05-07T19:43:17.6995884Z 
2025-05-07T19:43:17.6995889Z 
2025-05-07T19:43:17.6995893Z 
2025-05-07T19:43:17.6995914Z 
2025-05-07T19:43:17.6995918Z 
2025-05-07T19:43:17.6995923Z 
2025-05-07T19:43:17.6995927Z 
2025-05-07T19:43:17.6995931Z 
2025-05-07T19:43:17.6995935Z 
2025-05-07T19:43:17.6996821Z 
2025-05-07T19:43:17.7743857Z xorg-libx11-1.8.12   | 845 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.7744155Z 
2025-05-07T19:43:17.7744161Z 
2025-05-07T19:43:17.7744166Z 
2025-05-07T19:43:17.7744171Z 
2025-05-07T19:43:17.7744206Z 
2025-05-07T19:43:17.7744212Z 
2025-05-07T19:43:17.7744216Z 
2025-05-07T19:43:17.7744221Z 
2025-05-07T19:43:17.7744225Z 
2025-05-07T19:43:17.7744229Z 
2025-05-07T19:43:17.7744240Z 
2025-05-07T19:43:17.7744244Z 
2025-05-07T19:43:17.7744249Z 
2025-05-07T19:43:17.7744254Z 
2025-05-07T19:43:17.7745305Z 
2025-05-07T19:43:17.7747123Z libjpeg-turbo-3.1.0  | 638 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.7747434Z 
2025-05-07T19:43:17.7747442Z 
2025-05-07T19:43:17.7747449Z 
2025-05-07T19:43:17.7747474Z 
2025-05-07T19:43:17.7747481Z 
2025-05-07T19:43:17.7747488Z 
2025-05-07T19:43:17.7747495Z 
2025-05-07T19:43:17.7747502Z 
2025-05-07T19:43:17.7747508Z 
2025-05-07T19:43:17.7747515Z 
2025-05-07T19:43:17.7747521Z 
2025-05-07T19:43:17.7747528Z 
2025-05-07T19:43:17.7747534Z 
2025-05-07T19:43:17.7747866Z 
2025-05-07T19:43:17.7750809Z font-ttf-source-code | 684 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.7751116Z 
2025-05-07T19:43:17.7751146Z 
2025-05-07T19:43:17.7751152Z 
2025-05-07T19:43:17.7751156Z 
2025-05-07T19:43:17.7751160Z 
2025-05-07T19:43:17.7751165Z 
2025-05-07T19:43:17.7751169Z 
2025-05-07T19:43:17.7751173Z 
2025-05-07T19:43:17.7751179Z 
2025-05-07T19:43:17.7751183Z 
2025-05-07T19:43:17.7751190Z 
2025-05-07T19:43:17.7751194Z 
2025-05-07T19:43:17.7751198Z 
2025-05-07T19:43:17.7751202Z 
2025-05-07T19:43:17.7751530Z 
2025-05-07T19:43:17.7753400Z libjpeg-turbo-3.1.0  | 638 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.7753698Z 
2025-05-07T19:43:17.7753703Z 
2025-05-07T19:43:17.7753708Z 
2025-05-07T19:43:17.7753714Z 
2025-05-07T19:43:17.7753719Z 
2025-05-07T19:43:17.7753723Z 
2025-05-07T19:43:17.7753728Z 
2025-05-07T19:43:17.7753732Z 
2025-05-07T19:43:17.7753737Z 
2025-05-07T19:43:17.7753746Z 
2025-05-07T19:43:17.7753750Z 
2025-05-07T19:43:17.7753754Z 
2025-05-07T19:43:17.7753759Z 
2025-05-07T19:43:17.7755151Z 
2025-05-07T19:43:17.7939089Z font-ttf-source-code | 684 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.8583815Z openjdk-23.0.2       | 174.2 MB  | ########3  |  83% 
2025-05-07T19:43:17.8584065Z 
2025-05-07T19:43:17.8584070Z 
2025-05-07T19:43:17.8584075Z 
2025-05-07T19:43:17.8584079Z 
2025-05-07T19:43:17.8584085Z 
2025-05-07T19:43:17.8584090Z 
2025-05-07T19:43:17.8584094Z 
2025-05-07T19:43:17.8584098Z 
2025-05-07T19:43:17.8584102Z 
2025-05-07T19:43:17.8584107Z 
2025-05-07T19:43:17.8584116Z 
2025-05-07T19:43:17.8584120Z 
2025-05-07T19:43:17.8584124Z 
2025-05-07T19:43:17.8584423Z 
2025-05-07T19:43:17.8584429Z 
2025-05-07T19:43:17.8584434Z 
2025-05-07T19:43:17.8584442Z 
2025-05-07T19:43:17.8586260Z make-4.4.1           | 516 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.8586524Z 
2025-05-07T19:43:17.8586528Z 
2025-05-07T19:43:17.8586533Z 
2025-05-07T19:43:17.8586545Z 
2025-05-07T19:43:17.8586550Z 
2025-05-07T19:43:17.8586554Z 
2025-05-07T19:43:17.8586558Z 
2025-05-07T19:43:17.8586813Z 
2025-05-07T19:43:17.8586818Z 
2025-05-07T19:43:17.8586824Z 
2025-05-07T19:43:17.8586828Z 
2025-05-07T19:43:17.8586832Z 
2025-05-07T19:43:17.8586837Z 
2025-05-07T19:43:17.8586841Z 
2025-05-07T19:43:17.8586852Z 
2025-05-07T19:43:17.8586856Z 
2025-05-07T19:43:17.8587606Z 
2025-05-07T19:43:17.9122377Z make-4.4.1           | 516 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.9122640Z 
2025-05-07T19:43:17.9122645Z 
2025-05-07T19:43:17.9122650Z 
2025-05-07T19:43:17.9122656Z 
2025-05-07T19:43:17.9122682Z 
2025-05-07T19:43:17.9122688Z 
2025-05-07T19:43:17.9122696Z 
2025-05-07T19:43:17.9122701Z 
2025-05-07T19:43:17.9122705Z 
2025-05-07T19:43:17.9122709Z 
2025-05-07T19:43:17.9122713Z 
2025-05-07T19:43:17.9122722Z 
2025-05-07T19:43:17.9122725Z 
2025-05-07T19:43:17.9122729Z 
2025-05-07T19:43:17.9122733Z 
2025-05-07T19:43:17.9123591Z 
2025-05-07T19:43:17.9124690Z alsa-lib-1.2.14      | 581 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.9125000Z 
2025-05-07T19:43:17.9125018Z 
2025-05-07T19:43:17.9125022Z 
2025-05-07T19:43:17.9125027Z 
2025-05-07T19:43:17.9125031Z 
2025-05-07T19:43:17.9125036Z 
2025-05-07T19:43:17.9125040Z 
2025-05-07T19:43:17.9125044Z 
2025-05-07T19:43:17.9125049Z 
2025-05-07T19:43:17.9125053Z 
2025-05-07T19:43:17.9125057Z 
2025-05-07T19:43:17.9125061Z 
2025-05-07T19:43:17.9125066Z 
2025-05-07T19:43:17.9125070Z 
2025-05-07T19:43:17.9125074Z 
2025-05-07T19:43:17.9125078Z 
2025-05-07T19:43:17.9125082Z 
2025-05-07T19:43:17.9125340Z 
2025-05-07T19:43:17.9126429Z libtiff-4.7.0        | 453 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.9126723Z 
2025-05-07T19:43:17.9126728Z 
2025-05-07T19:43:17.9126733Z 
2025-05-07T19:43:17.9126738Z 
2025-05-07T19:43:17.9126743Z 
2025-05-07T19:43:17.9126747Z 
2025-05-07T19:43:17.9126752Z 
2025-05-07T19:43:17.9126757Z 
2025-05-07T19:43:17.9126762Z 
2025-05-07T19:43:17.9127092Z 
2025-05-07T19:43:17.9128292Z libabseil-20250127.1 | 1.3 MB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.9128573Z 
2025-05-07T19:43:17.9128587Z 
2025-05-07T19:43:17.9128592Z 
2025-05-07T19:43:17.9128597Z 
2025-05-07T19:43:17.9128602Z 
2025-05-07T19:43:17.9128607Z 
2025-05-07T19:43:17.9128611Z 
2025-05-07T19:43:17.9128616Z 
2025-05-07T19:43:17.9128620Z 
2025-05-07T19:43:17.9128624Z 
2025-05-07T19:43:17.9128628Z 
2025-05-07T19:43:17.9128633Z 
2025-05-07T19:43:17.9128641Z 
2025-05-07T19:43:17.9128645Z 
2025-05-07T19:43:17.9128649Z 
2025-05-07T19:43:17.9128922Z 
2025-05-07T19:43:17.9130024Z alsa-lib-1.2.14      | 581 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.9130294Z 
2025-05-07T19:43:17.9130299Z 
2025-05-07T19:43:17.9130303Z 
2025-05-07T19:43:17.9130308Z 
2025-05-07T19:43:17.9130313Z 
2025-05-07T19:43:17.9130317Z 
2025-05-07T19:43:17.9130322Z 
2025-05-07T19:43:17.9130326Z 
2025-05-07T19:43:17.9130331Z 
2025-05-07T19:43:17.9130336Z 
2025-05-07T19:43:17.9130346Z 
2025-05-07T19:43:17.9130361Z 
2025-05-07T19:43:17.9130366Z 
2025-05-07T19:43:17.9130370Z 
2025-05-07T19:43:17.9130374Z 
2025-05-07T19:43:17.9130379Z 
2025-05-07T19:43:17.9130383Z 
2025-05-07T19:43:17.9130387Z 
2025-05-07T19:43:17.9131691Z libtiff-4.7.0        | 453 KB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.9131989Z 
2025-05-07T19:43:17.9131994Z 
2025-05-07T19:43:17.9131998Z 
2025-05-07T19:43:17.9132013Z 
2025-05-07T19:43:17.9132021Z 
2025-05-07T19:43:17.9132026Z 
2025-05-07T19:43:17.9132030Z 
2025-05-07T19:43:17.9132376Z 
2025-05-07T19:43:17.9132382Z 
2025-05-07T19:43:17.9132388Z 
2025-05-07T19:43:17.9573528Z libabseil-20250127.1 | 1.3 MB    | ########## | 100% [A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.9573823Z 
2025-05-07T19:43:17.9573829Z 
2025-05-07T19:43:17.9573841Z 
2025-05-07T19:43:17.9573846Z 
2025-05-07T19:43:17.9573852Z 
2025-05-07T19:43:17.9573858Z 
2025-05-07T19:43:17.9573866Z 
2025-05-07T19:43:17.9573871Z 
2025-05-07T19:43:17.9573877Z 
2025-05-07T19:43:17.9574120Z 
2025-05-07T19:43:17.9574127Z 
2025-05-07T19:43:17.9574131Z 
2025-05-07T19:43:17.9574136Z 
2025-05-07T19:43:17.9574143Z 
2025-05-07T19:43:17.9574147Z 
2025-05-07T19:43:17.9574156Z 
2025-05-07T19:43:17.9574160Z 
2025-05-07T19:43:17.9574164Z 
2025-05-07T19:43:17.9574169Z 
2025-05-07T19:43:17.9575903Z  ... (more hidden) ...[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:17.9576158Z 
2025-05-07T19:43:17.9576163Z 
2025-05-07T19:43:17.9576167Z 
2025-05-07T19:43:17.9576171Z 
2025-05-07T19:43:17.9576175Z 
2025-05-07T19:43:17.9576191Z 
2025-05-07T19:43:17.9576203Z 
2025-05-07T19:43:17.9576207Z 
2025-05-07T19:43:17.9576211Z 
2025-05-07T19:43:17.9576215Z 
2025-05-07T19:43:17.9576219Z 
2025-05-07T19:43:17.9576223Z 
2025-05-07T19:43:17.9576227Z 
2025-05-07T19:43:17.9576231Z 
2025-05-07T19:43:17.9576240Z 
2025-05-07T19:43:17.9576244Z 
2025-05-07T19:43:17.9576248Z 
2025-05-07T19:43:17.9576252Z 
2025-05-07T19:43:17.9576256Z 
2025-05-07T19:43:18.0912977Z  ... (more hidden) ...[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:18.1912794Z openjdk-23.0.2       | 174.2 MB  | ########9  |  89% 
2025-05-07T19:43:18.9254168Z openjdk-23.0.2       | 174.2 MB  | #########4 |  95% 
2025-05-07T19:43:18.9254520Z openjdk-23.0.2       | 174.2 MB  | ########## | 100% 
2025-05-07T19:43:19.6770874Z openjdk-23.0.2       | 174.2 MB  | ########## | 100% 
2025-05-07T19:43:19.6771146Z 
2025-05-07T19:43:20.0736777Z bazel-7.5.0          | 45.4 MB   | ########## | 100% [A
2025-05-07T19:43:20.0737027Z 
2025-05-07T19:43:20.0737069Z 
2025-05-07T19:43:20.8305223Z cmake-4.0.2          | 19.0 MB   | ########## | 100% [A[A
2025-05-07T19:43:20.8310217Z openjdk-23.0.2       | 174.2 MB  | ########## | 100% 
2025-05-07T19:43:20.8310462Z 
2025-05-07T19:43:20.8310467Z 
2025-05-07T19:43:20.8310471Z 
2025-05-07T19:43:20.8310475Z 
2025-05-07T19:43:20.8310490Z 
2025-05-07T19:43:20.8310495Z 
2025-05-07T19:43:20.8310501Z 
2025-05-07T19:43:20.8310505Z 
2025-05-07T19:43:20.8310509Z 
2025-05-07T19:43:20.8310550Z 
2025-05-07T19:43:20.8310554Z 
2025-05-07T19:43:20.8310558Z 
2025-05-07T19:43:20.8310562Z 
2025-05-07T19:43:20.8310566Z 
2025-05-07T19:43:20.8310572Z 
2025-05-07T19:43:20.8310583Z 
2025-05-07T19:43:20.8310587Z 
2025-05-07T19:43:20.8310591Z 
2025-05-07T19:43:20.8310595Z 
2025-05-07T19:43:20.8310660Z                       
2025-05-07T19:43:20.8311015Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8311287Z                                                      
2025-05-07T19:43:20.8311461Z 
2025-05-07T19:43:20.8311633Z                                                      [A
2025-05-07T19:43:20.8311890Z 
2025-05-07T19:43:20.8311897Z 
2025-05-07T19:43:20.8312044Z                                                      [A[A
2025-05-07T19:43:20.8312225Z 
2025-05-07T19:43:20.8312229Z 
2025-05-07T19:43:20.8312234Z 
2025-05-07T19:43:20.8312387Z                                                      [A[A[A
2025-05-07T19:43:20.8312568Z 
2025-05-07T19:43:20.8312573Z 
2025-05-07T19:43:20.8312583Z 
2025-05-07T19:43:20.8312587Z 
2025-05-07T19:43:20.8312731Z                                                      [A[A[A[A
2025-05-07T19:43:20.8312920Z 
2025-05-07T19:43:20.8312924Z 
2025-05-07T19:43:20.8312928Z 
2025-05-07T19:43:20.8312932Z 
2025-05-07T19:43:20.8312936Z 
2025-05-07T19:43:20.8313087Z                                                      [A[A[A[A[A
2025-05-07T19:43:20.8313280Z 
2025-05-07T19:43:20.8313285Z 
2025-05-07T19:43:20.8313289Z 
2025-05-07T19:43:20.8313293Z 
2025-05-07T19:43:20.8313297Z 
2025-05-07T19:43:20.8313704Z 
2025-05-07T19:43:20.8313945Z                                                      [A[A[A[A[A[A
2025-05-07T19:43:20.8314132Z 
2025-05-07T19:43:20.8314136Z 
2025-05-07T19:43:20.8314145Z 
2025-05-07T19:43:20.8314150Z 
2025-05-07T19:43:20.8314154Z 
2025-05-07T19:43:20.8314157Z 
2025-05-07T19:43:20.8314162Z 
2025-05-07T19:43:20.8314314Z                                                      [A[A[A[A[A[A[A
2025-05-07T19:43:20.8314502Z 
2025-05-07T19:43:20.8314650Z 
2025-05-07T19:43:20.8314654Z 
2025-05-07T19:43:20.8314658Z 
2025-05-07T19:43:20.8314662Z 
2025-05-07T19:43:20.8314671Z 
2025-05-07T19:43:20.8314675Z 
2025-05-07T19:43:20.8314679Z 
2025-05-07T19:43:20.8314864Z                                                      [A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8315061Z 
2025-05-07T19:43:20.8315066Z 
2025-05-07T19:43:20.8315070Z 
2025-05-07T19:43:20.8315074Z 
2025-05-07T19:43:20.8315077Z 
2025-05-07T19:43:20.8315082Z 
2025-05-07T19:43:20.8315085Z 
2025-05-07T19:43:20.8315092Z 
2025-05-07T19:43:20.8315104Z 
2025-05-07T19:43:20.8315291Z                                                      [A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8315484Z 
2025-05-07T19:43:20.8315488Z 
2025-05-07T19:43:20.8315492Z 
2025-05-07T19:43:20.8315496Z 
2025-05-07T19:43:20.8315504Z 
2025-05-07T19:43:20.8315508Z 
2025-05-07T19:43:20.8315512Z 
2025-05-07T19:43:20.8315516Z 
2025-05-07T19:43:20.8315520Z 
2025-05-07T19:43:20.8315524Z 
2025-05-07T19:43:20.8315687Z                                                      [A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8315892Z 
2025-05-07T19:43:20.8315896Z 
2025-05-07T19:43:20.8315900Z 
2025-05-07T19:43:20.8315904Z 
2025-05-07T19:43:20.8315912Z 
2025-05-07T19:43:20.8315917Z 
2025-05-07T19:43:20.8315920Z 
2025-05-07T19:43:20.8315924Z 
2025-05-07T19:43:20.8315928Z 
2025-05-07T19:43:20.8315932Z 
2025-05-07T19:43:20.8315936Z 
2025-05-07T19:43:20.8316105Z                                                      [A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8316303Z 
2025-05-07T19:43:20.8316312Z 
2025-05-07T19:43:20.8316317Z 
2025-05-07T19:43:20.8316324Z 
2025-05-07T19:43:20.8316328Z 
2025-05-07T19:43:20.8316332Z 
2025-05-07T19:43:20.8316336Z 
2025-05-07T19:43:20.8316340Z 
2025-05-07T19:43:20.8316344Z 
2025-05-07T19:43:20.8316348Z 
2025-05-07T19:43:20.8316352Z 
2025-05-07T19:43:20.8316356Z 
2025-05-07T19:43:20.8316530Z                                                      [A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8316735Z 
2025-05-07T19:43:20.8316744Z 
2025-05-07T19:43:20.8316748Z 
2025-05-07T19:43:20.8316752Z 
2025-05-07T19:43:20.8316756Z 
2025-05-07T19:43:20.8316760Z 
2025-05-07T19:43:20.8316764Z 
2025-05-07T19:43:20.8316768Z 
2025-05-07T19:43:20.8316772Z 
2025-05-07T19:43:20.8316776Z 
2025-05-07T19:43:20.8316780Z 
2025-05-07T19:43:20.8316783Z 
2025-05-07T19:43:20.8316787Z 
2025-05-07T19:43:20.8316990Z                                                      [A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8317194Z 
2025-05-07T19:43:20.8317198Z 
2025-05-07T19:43:20.8317206Z 
2025-05-07T19:43:20.8317210Z 
2025-05-07T19:43:20.8317214Z 
2025-05-07T19:43:20.8317217Z 
2025-05-07T19:43:20.8317221Z 
2025-05-07T19:43:20.8317225Z 
2025-05-07T19:43:20.8317229Z 
2025-05-07T19:43:20.8317233Z 
2025-05-07T19:43:20.8317237Z 
2025-05-07T19:43:20.8317241Z 
2025-05-07T19:43:20.8317245Z 
2025-05-07T19:43:20.8317248Z 
2025-05-07T19:43:20.8317431Z                                                      [A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8317640Z 
2025-05-07T19:43:20.8317645Z 
2025-05-07T19:43:20.8317649Z 
2025-05-07T19:43:20.8317652Z 
2025-05-07T19:43:20.8317656Z 
2025-05-07T19:43:20.8317660Z 
2025-05-07T19:43:20.8317664Z 
2025-05-07T19:43:20.8317668Z 
2025-05-07T19:43:20.8317672Z 
2025-05-07T19:43:20.8317676Z 
2025-05-07T19:43:20.8317684Z 
2025-05-07T19:43:20.8317690Z 
2025-05-07T19:43:20.8317694Z 
2025-05-07T19:43:20.8317698Z 
2025-05-07T19:43:20.8317702Z 
2025-05-07T19:43:20.8317990Z                                                      [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8318206Z 
2025-05-07T19:43:20.8318211Z 
2025-05-07T19:43:20.8318215Z 
2025-05-07T19:43:20.8318219Z 
2025-05-07T19:43:20.8318223Z 
2025-05-07T19:43:20.8318231Z 
2025-05-07T19:43:20.8318234Z 
2025-05-07T19:43:20.8318238Z 
2025-05-07T19:43:20.8318242Z 
2025-05-07T19:43:20.8318246Z 
2025-05-07T19:43:20.8318250Z 
2025-05-07T19:43:20.8318254Z 
2025-05-07T19:43:20.8318257Z 
2025-05-07T19:43:20.8318261Z 
2025-05-07T19:43:20.8318327Z 
2025-05-07T19:43:20.8318331Z 
2025-05-07T19:43:20.8318599Z                                                      [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8318812Z 
2025-05-07T19:43:20.8318816Z 
2025-05-07T19:43:20.8318821Z 
2025-05-07T19:43:20.8318824Z 
2025-05-07T19:43:20.8318828Z 
2025-05-07T19:43:20.8318832Z 
2025-05-07T19:43:20.8318836Z 
2025-05-07T19:43:20.8318840Z 
2025-05-07T19:43:20.8318844Z 
2025-05-07T19:43:20.8318848Z 
2025-05-07T19:43:20.8318851Z 
2025-05-07T19:43:20.8318855Z 
2025-05-07T19:43:20.8318864Z 
2025-05-07T19:43:20.8318868Z 
2025-05-07T19:43:20.8318872Z 
2025-05-07T19:43:20.8318876Z 
2025-05-07T19:43:20.8318880Z 
2025-05-07T19:43:20.8319086Z                                                      [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8319294Z 
2025-05-07T19:43:20.8319317Z 
2025-05-07T19:43:20.8319321Z 
2025-05-07T19:43:20.8319325Z 
2025-05-07T19:43:20.8319328Z 
2025-05-07T19:43:20.8319332Z 
2025-05-07T19:43:20.8319340Z 
2025-05-07T19:43:20.8319344Z 
2025-05-07T19:43:20.8319348Z 
2025-05-07T19:43:20.8319352Z 
2025-05-07T19:43:20.8319356Z 
2025-05-07T19:43:20.8319362Z 
2025-05-07T19:43:20.8319366Z 
2025-05-07T19:43:20.8319370Z 
2025-05-07T19:43:20.8319374Z 
2025-05-07T19:43:20.8319377Z 
2025-05-07T19:43:20.8319381Z 
2025-05-07T19:43:20.8319385Z 
2025-05-07T19:43:20.8319582Z                                                      [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8319794Z 
2025-05-07T19:43:20.8319798Z 
2025-05-07T19:43:20.8319881Z [A
2025-05-07T19:43:20.8319961Z 
2025-05-07T19:43:20.8319965Z 
2025-05-07T19:43:20.8320040Z [A[A
2025-05-07T19:43:20.8320133Z 
2025-05-07T19:43:20.8320136Z 
2025-05-07T19:43:20.8320140Z 
2025-05-07T19:43:20.8320219Z [A[A[A
2025-05-07T19:43:20.8320310Z 
2025-05-07T19:43:20.8320315Z 
2025-05-07T19:43:20.8320319Z 
2025-05-07T19:43:20.8320322Z 
2025-05-07T19:43:20.8320409Z [A[A[A[A
2025-05-07T19:43:20.8320504Z 
2025-05-07T19:43:20.8320508Z 
2025-05-07T19:43:20.8320519Z 
2025-05-07T19:43:20.8320523Z 
2025-05-07T19:43:20.8320528Z 
2025-05-07T19:43:20.8320613Z [A[A[A[A[A
2025-05-07T19:43:20.8320719Z 
2025-05-07T19:43:20.8320723Z 
2025-05-07T19:43:20.8320727Z 
2025-05-07T19:43:20.8320731Z 
2025-05-07T19:43:20.8320735Z 
2025-05-07T19:43:20.8320739Z 
2025-05-07T19:43:20.8320849Z [A[A[A[A[A[A
2025-05-07T19:43:20.8320958Z 
2025-05-07T19:43:20.8320962Z 
2025-05-07T19:43:20.8320966Z 
2025-05-07T19:43:20.8320970Z 
2025-05-07T19:43:20.8320974Z 
2025-05-07T19:43:20.8320978Z 
2025-05-07T19:43:20.8320982Z 
2025-05-07T19:43:20.8321077Z [A[A[A[A[A[A[A
2025-05-07T19:43:20.8321199Z 
2025-05-07T19:43:20.8321202Z 
2025-05-07T19:43:20.8321207Z 
2025-05-07T19:43:20.8321210Z 
2025-05-07T19:43:20.8321214Z 
2025-05-07T19:43:20.8321218Z 
2025-05-07T19:43:20.8321222Z 
2025-05-07T19:43:20.8321226Z 
2025-05-07T19:43:20.8321322Z [A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8321445Z 
2025-05-07T19:43:20.8321449Z 
2025-05-07T19:43:20.8321453Z 
2025-05-07T19:43:20.8321460Z 
2025-05-07T19:43:20.8321469Z 
2025-05-07T19:43:20.8321473Z 
2025-05-07T19:43:20.8321477Z 
2025-05-07T19:43:20.8321481Z 
2025-05-07T19:43:20.8321484Z 
2025-05-07T19:43:20.8321585Z [A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8321719Z 
2025-05-07T19:43:20.8321724Z 
2025-05-07T19:43:20.8321728Z 
2025-05-07T19:43:20.8321731Z 
2025-05-07T19:43:20.8321735Z 
2025-05-07T19:43:20.8321742Z 
2025-05-07T19:43:20.8321746Z 
2025-05-07T19:43:20.8321750Z 
2025-05-07T19:43:20.8321754Z 
2025-05-07T19:43:20.8321758Z 
2025-05-07T19:43:20.8321973Z [A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8322116Z 
2025-05-07T19:43:20.8322120Z 
2025-05-07T19:43:20.8322124Z 
2025-05-07T19:43:20.8322129Z 
2025-05-07T19:43:20.8322133Z 
2025-05-07T19:43:20.8322137Z 
2025-05-07T19:43:20.8322146Z 
2025-05-07T19:43:20.8322150Z 
2025-05-07T19:43:20.8322154Z 
2025-05-07T19:43:20.8322158Z 
2025-05-07T19:43:20.8322162Z 
2025-05-07T19:43:20.8322362Z [A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8322516Z 
2025-05-07T19:43:20.8322520Z 
2025-05-07T19:43:20.8322595Z 
2025-05-07T19:43:20.8322599Z 
2025-05-07T19:43:20.8322603Z 
2025-05-07T19:43:20.8322607Z 
2025-05-07T19:43:20.8322611Z 
2025-05-07T19:43:20.8322615Z 
2025-05-07T19:43:20.8322619Z 
2025-05-07T19:43:20.8322623Z 
2025-05-07T19:43:20.8322626Z 
2025-05-07T19:43:20.8322630Z 
2025-05-07T19:43:20.8322754Z [A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8322916Z 
2025-05-07T19:43:20.8322920Z 
2025-05-07T19:43:20.8322924Z 
2025-05-07T19:43:20.8322928Z 
2025-05-07T19:43:20.8322932Z 
2025-05-07T19:43:20.8322936Z 
2025-05-07T19:43:20.8322944Z 
2025-05-07T19:43:20.8322948Z 
2025-05-07T19:43:20.8322952Z 
2025-05-07T19:43:20.8322956Z 
2025-05-07T19:43:20.8322960Z 
2025-05-07T19:43:20.8322964Z 
2025-05-07T19:43:20.8322967Z 
2025-05-07T19:43:20.8323095Z [A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8323265Z 
2025-05-07T19:43:20.8323270Z 
2025-05-07T19:43:20.8323274Z 
2025-05-07T19:43:20.8323277Z 
2025-05-07T19:43:20.8323281Z 
2025-05-07T19:43:20.8323285Z 
2025-05-07T19:43:20.8323293Z 
2025-05-07T19:43:20.8323297Z 
2025-05-07T19:43:20.8323301Z 
2025-05-07T19:43:20.8323304Z 
2025-05-07T19:43:20.8323308Z 
2025-05-07T19:43:20.8323312Z 
2025-05-07T19:43:20.8323316Z 
2025-05-07T19:43:20.8323320Z 
2025-05-07T19:43:20.8323443Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8323613Z 
2025-05-07T19:43:20.8323617Z 
2025-05-07T19:43:20.8323621Z 
2025-05-07T19:43:20.8323625Z 
2025-05-07T19:43:20.8323629Z 
2025-05-07T19:43:20.8323633Z 
2025-05-07T19:43:20.8323637Z 
2025-05-07T19:43:20.8323640Z 
2025-05-07T19:43:20.8323644Z 
2025-05-07T19:43:20.8323653Z 
2025-05-07T19:43:20.8323656Z 
2025-05-07T19:43:20.8323660Z 
2025-05-07T19:43:20.8323664Z 
2025-05-07T19:43:20.8323668Z 
2025-05-07T19:43:20.8323672Z 
2025-05-07T19:43:20.8323800Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8323973Z 
2025-05-07T19:43:20.8323977Z 
2025-05-07T19:43:20.8323981Z 
2025-05-07T19:43:20.8323985Z 
2025-05-07T19:43:20.8323989Z 
2025-05-07T19:43:20.8323993Z 
2025-05-07T19:43:20.8323997Z 
2025-05-07T19:43:20.8324004Z 
2025-05-07T19:43:20.8324008Z 
2025-05-07T19:43:20.8324012Z 
2025-05-07T19:43:20.8324016Z 
2025-05-07T19:43:20.8324025Z 
2025-05-07T19:43:20.8324030Z 
2025-05-07T19:43:20.8324054Z 
2025-05-07T19:43:20.8324057Z 
2025-05-07T19:43:20.8324061Z 
2025-05-07T19:43:20.8324191Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8324369Z 
2025-05-07T19:43:20.8324374Z 
2025-05-07T19:43:20.8324381Z 
2025-05-07T19:43:20.8324385Z 
2025-05-07T19:43:20.8324389Z 
2025-05-07T19:43:20.8324393Z 
2025-05-07T19:43:20.8324397Z 
2025-05-07T19:43:20.8324404Z 
2025-05-07T19:43:20.8324408Z 
2025-05-07T19:43:20.8324412Z 
2025-05-07T19:43:20.8324416Z 
2025-05-07T19:43:20.8324420Z 
2025-05-07T19:43:20.8324424Z 
2025-05-07T19:43:20.8324427Z 
2025-05-07T19:43:20.8324431Z 
2025-05-07T19:43:20.8324435Z 
2025-05-07T19:43:20.8324439Z 
2025-05-07T19:43:20.8324572Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8324759Z 
2025-05-07T19:43:20.8324763Z 
2025-05-07T19:43:20.8324771Z 
2025-05-07T19:43:20.8324775Z 
2025-05-07T19:43:20.8324779Z 
2025-05-07T19:43:20.8324783Z 
2025-05-07T19:43:20.8324787Z 
2025-05-07T19:43:20.8324790Z 
2025-05-07T19:43:20.8324794Z 
2025-05-07T19:43:20.8324798Z 
2025-05-07T19:43:20.8324802Z 
2025-05-07T19:43:20.8324806Z 
2025-05-07T19:43:20.8324810Z 
2025-05-07T19:43:20.8324814Z 
2025-05-07T19:43:20.8324817Z 
2025-05-07T19:43:20.8324822Z 
2025-05-07T19:43:20.8324826Z 
2025-05-07T19:43:20.8324830Z 
2025-05-07T19:43:20.8324974Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8325248Z 
2025-05-07T19:43:20.8325253Z 
2025-05-07T19:43:20.8325338Z [A
2025-05-07T19:43:20.8344522Z 
2025-05-07T19:43:20.8344533Z 
2025-05-07T19:43:20.8344856Z [A[A
2025-05-07T19:43:20.8344975Z 
2025-05-07T19:43:20.8344981Z 
2025-05-07T19:43:20.8344987Z 
2025-05-07T19:43:20.8345215Z [A[A[A
2025-05-07T19:43:20.8345309Z 
2025-05-07T19:43:20.8345314Z 
2025-05-07T19:43:20.8345318Z 
2025-05-07T19:43:20.8345324Z 
2025-05-07T19:43:20.8345405Z [A[A[A[A
2025-05-07T19:43:20.8345932Z 
2025-05-07T19:43:20.8345936Z 
2025-05-07T19:43:20.8345940Z 
2025-05-07T19:43:20.8345944Z 
2025-05-07T19:43:20.8345948Z 
2025-05-07T19:43:20.8346044Z [A[A[A[A[A
2025-05-07T19:43:20.8346148Z 
2025-05-07T19:43:20.8346153Z 
2025-05-07T19:43:20.8346157Z 
2025-05-07T19:43:20.8346168Z 
2025-05-07T19:43:20.8346172Z 
2025-05-07T19:43:20.8346176Z 
2025-05-07T19:43:20.8346269Z [A[A[A[A[A[A
2025-05-07T19:43:20.8346378Z 
2025-05-07T19:43:20.8346382Z 
2025-05-07T19:43:20.8346386Z 
2025-05-07T19:43:20.8346390Z 
2025-05-07T19:43:20.8346403Z 
2025-05-07T19:43:20.8346407Z 
2025-05-07T19:43:20.8346411Z 
2025-05-07T19:43:20.8346507Z [A[A[A[A[A[A[A
2025-05-07T19:43:20.8346622Z 
2025-05-07T19:43:20.8346626Z 
2025-05-07T19:43:20.8346630Z 
2025-05-07T19:43:20.8346635Z 
2025-05-07T19:43:20.8346639Z 
2025-05-07T19:43:20.8346643Z 
2025-05-07T19:43:20.8346647Z 
2025-05-07T19:43:20.8346650Z 
2025-05-07T19:43:20.8346754Z [A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8346879Z 
2025-05-07T19:43:20.8346888Z 
2025-05-07T19:43:20.8346893Z 
2025-05-07T19:43:20.8346897Z 
2025-05-07T19:43:20.8346900Z 
2025-05-07T19:43:20.8346904Z 
2025-05-07T19:43:20.8346908Z 
2025-05-07T19:43:20.8346912Z 
2025-05-07T19:43:20.8346916Z 
2025-05-07T19:43:20.8347022Z [A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8347153Z 
2025-05-07T19:43:20.8347157Z 
2025-05-07T19:43:20.8347161Z 
2025-05-07T19:43:20.8347165Z 
2025-05-07T19:43:20.8347169Z 
2025-05-07T19:43:20.8347173Z 
2025-05-07T19:43:20.8347177Z 
2025-05-07T19:43:20.8347181Z 
2025-05-07T19:43:20.8347185Z 
2025-05-07T19:43:20.8347198Z 
2025-05-07T19:43:20.8347304Z [A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8347445Z 
2025-05-07T19:43:20.8347449Z 
2025-05-07T19:43:20.8347453Z 
2025-05-07T19:43:20.8347457Z 
2025-05-07T19:43:20.8347461Z 
2025-05-07T19:43:20.8347465Z 
2025-05-07T19:43:20.8347469Z 
2025-05-07T19:43:20.8347473Z 
2025-05-07T19:43:20.8347477Z 
2025-05-07T19:43:20.8347481Z 
2025-05-07T19:43:20.8347484Z 
2025-05-07T19:43:20.8347594Z [A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8347750Z 
2025-05-07T19:43:20.8347754Z 
2025-05-07T19:43:20.8347758Z 
2025-05-07T19:43:20.8347762Z 
2025-05-07T19:43:20.8347766Z 
2025-05-07T19:43:20.8347770Z 
2025-05-07T19:43:20.8347774Z 
2025-05-07T19:43:20.8347778Z 
2025-05-07T19:43:20.8347782Z 
2025-05-07T19:43:20.8347786Z 
2025-05-07T19:43:20.8347790Z 
2025-05-07T19:43:20.8347793Z 
2025-05-07T19:43:20.8347908Z [A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8348062Z 
2025-05-07T19:43:20.8348067Z 
2025-05-07T19:43:20.8348070Z 
2025-05-07T19:43:20.8348074Z 
2025-05-07T19:43:20.8348084Z 
2025-05-07T19:43:20.8348089Z 
2025-05-07T19:43:20.8348092Z 
2025-05-07T19:43:20.8348096Z 
2025-05-07T19:43:20.8348100Z 
2025-05-07T19:43:20.8348104Z 
2025-05-07T19:43:20.8348108Z 
2025-05-07T19:43:20.8348112Z 
2025-05-07T19:43:20.8348116Z 
2025-05-07T19:43:20.8348237Z [A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8348400Z 
2025-05-07T19:43:20.8348404Z 
2025-05-07T19:43:20.8348408Z 
2025-05-07T19:43:20.8348412Z 
2025-05-07T19:43:20.8348421Z 
2025-05-07T19:43:20.8348425Z 
2025-05-07T19:43:20.8348429Z 
2025-05-07T19:43:20.8348433Z 
2025-05-07T19:43:20.8348437Z 
2025-05-07T19:43:20.8348440Z 
2025-05-07T19:43:20.8348444Z 
2025-05-07T19:43:20.8348448Z 
2025-05-07T19:43:20.8348452Z 
2025-05-07T19:43:20.8348456Z 
2025-05-07T19:43:20.8348581Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8348750Z 
2025-05-07T19:43:20.8348754Z 
2025-05-07T19:43:20.8348758Z 
2025-05-07T19:43:20.8348762Z 
2025-05-07T19:43:20.8348766Z 
2025-05-07T19:43:20.8348770Z 
2025-05-07T19:43:20.8348996Z 
2025-05-07T19:43:20.8349001Z 
2025-05-07T19:43:20.8349006Z 
2025-05-07T19:43:20.8349009Z 
2025-05-07T19:43:20.8349020Z 
2025-05-07T19:43:20.8349024Z 
2025-05-07T19:43:20.8349028Z 
2025-05-07T19:43:20.8349032Z 
2025-05-07T19:43:20.8349036Z 
2025-05-07T19:43:20.8349219Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8349392Z 
2025-05-07T19:43:20.8349396Z 
2025-05-07T19:43:20.8349400Z 
2025-05-07T19:43:20.8349404Z 
2025-05-07T19:43:20.8349489Z 
2025-05-07T19:43:20.8349492Z 
2025-05-07T19:43:20.8349501Z 
2025-05-07T19:43:20.8349505Z 
2025-05-07T19:43:20.8349509Z 
2025-05-07T19:43:20.8349513Z 
2025-05-07T19:43:20.8349517Z 
2025-05-07T19:43:20.8349521Z 
2025-05-07T19:43:20.8349525Z 
2025-05-07T19:43:20.8349528Z 
2025-05-07T19:43:20.8349532Z 
2025-05-07T19:43:20.8349536Z 
2025-05-07T19:43:20.8349687Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8349871Z 
2025-05-07T19:43:20.8349875Z 
2025-05-07T19:43:20.8349879Z 
2025-05-07T19:43:20.8349884Z 
2025-05-07T19:43:20.8349892Z 
2025-05-07T19:43:20.8349896Z 
2025-05-07T19:43:20.8349901Z 
2025-05-07T19:43:20.8349905Z 
2025-05-07T19:43:20.8349909Z 
2025-05-07T19:43:20.8349914Z 
2025-05-07T19:43:20.8349918Z 
2025-05-07T19:43:20.8349922Z 
2025-05-07T19:43:20.8349926Z 
2025-05-07T19:43:20.8349930Z 
2025-05-07T19:43:20.8349935Z 
2025-05-07T19:43:20.8349939Z 
2025-05-07T19:43:20.8349943Z 
2025-05-07T19:43:20.8350085Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8350274Z 
2025-05-07T19:43:20.8350278Z 
2025-05-07T19:43:20.8350283Z 
2025-05-07T19:43:20.8350287Z 
2025-05-07T19:43:20.8350291Z 
2025-05-07T19:43:20.8350295Z 
2025-05-07T19:43:20.8350299Z 
2025-05-07T19:43:20.8350302Z 
2025-05-07T19:43:20.8350306Z 
2025-05-07T19:43:20.8350310Z 
2025-05-07T19:43:20.8350314Z 
2025-05-07T19:43:20.8350317Z 
2025-05-07T19:43:20.8350321Z 
2025-05-07T19:43:20.8350325Z 
2025-05-07T19:43:20.8350329Z 
2025-05-07T19:43:20.8350333Z 
2025-05-07T19:43:20.8350337Z 
2025-05-07T19:43:20.8350340Z 
2025-05-07T19:43:20.8350494Z [A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8350680Z 
2025-05-07T19:43:20.8350684Z 
2025-05-07T19:43:20.8350760Z [A
2025-05-07T19:43:20.8350846Z 
2025-05-07T19:43:20.8350851Z 
2025-05-07T19:43:20.8350928Z [A[A
2025-05-07T19:43:20.8351011Z 
2025-05-07T19:43:20.8351016Z 
2025-05-07T19:43:20.8351019Z 
2025-05-07T19:43:20.8351103Z [A[A[A
2025-05-07T19:43:20.8351189Z 
2025-05-07T19:43:20.8351194Z 
2025-05-07T19:43:20.8351198Z 
2025-05-07T19:43:20.8351205Z 
2025-05-07T19:43:20.8351285Z [A[A[A[A
2025-05-07T19:43:20.8351385Z 
2025-05-07T19:43:20.8351389Z 
2025-05-07T19:43:20.8351393Z 
2025-05-07T19:43:20.8351397Z 
2025-05-07T19:43:20.8351401Z 
2025-05-07T19:43:20.8351484Z [A[A[A[A[A
2025-05-07T19:43:20.8351585Z 
2025-05-07T19:43:20.8351589Z 
2025-05-07T19:43:20.8351597Z 
2025-05-07T19:43:20.8351601Z 
2025-05-07T19:43:20.8351605Z 
2025-05-07T19:43:20.8351609Z 
2025-05-07T19:43:20.8351837Z [A[A[A[A[A[A
2025-05-07T19:43:20.8351946Z 
2025-05-07T19:43:20.8351950Z 
2025-05-07T19:43:20.8351960Z 
2025-05-07T19:43:20.8351964Z 
2025-05-07T19:43:20.8351968Z 
2025-05-07T19:43:20.8351972Z 
2025-05-07T19:43:20.8351976Z 
2025-05-07T19:43:20.8352123Z [A[A[A[A[A[A[A
2025-05-07T19:43:20.8352239Z 
2025-05-07T19:43:20.8352243Z 
2025-05-07T19:43:20.8352247Z 
2025-05-07T19:43:20.8352251Z 
2025-05-07T19:43:20.8352255Z 
2025-05-07T19:43:20.8352259Z 
2025-05-07T19:43:20.8352263Z 
2025-05-07T19:43:20.8352267Z 
2025-05-07T19:43:20.8352373Z [A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8352502Z 
2025-05-07T19:43:20.8352506Z 
2025-05-07T19:43:20.8352510Z 
2025-05-07T19:43:20.8352514Z 
2025-05-07T19:43:20.8352518Z 
2025-05-07T19:43:20.8352522Z 
2025-05-07T19:43:20.8352526Z 
2025-05-07T19:43:20.8352530Z 
2025-05-07T19:43:20.8352534Z 
2025-05-07T19:43:20.8352638Z [A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8352771Z 
2025-05-07T19:43:20.8352775Z 
2025-05-07T19:43:20.8352779Z 
2025-05-07T19:43:20.8352783Z 
2025-05-07T19:43:20.8352787Z 
2025-05-07T19:43:20.8352791Z 
2025-05-07T19:43:20.8352795Z 
2025-05-07T19:43:20.8352907Z 
2025-05-07T19:43:20.8352912Z 
2025-05-07T19:43:20.8352915Z 
2025-05-07T19:43:20.8353058Z [A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8353203Z 
2025-05-07T19:43:20.8353207Z 
2025-05-07T19:43:20.8353211Z 
2025-05-07T19:43:20.8353215Z 
2025-05-07T19:43:20.8353219Z 
2025-05-07T19:43:20.8353223Z 
2025-05-07T19:43:20.8353227Z 
2025-05-07T19:43:20.8353231Z 
2025-05-07T19:43:20.8353235Z 
2025-05-07T19:43:20.8353239Z 
2025-05-07T19:43:20.8353318Z 
2025-05-07T19:43:20.8353430Z [A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8353583Z 
2025-05-07T19:43:20.8353588Z 
2025-05-07T19:43:20.8353592Z 
2025-05-07T19:43:20.8353595Z 
2025-05-07T19:43:20.8353599Z 
2025-05-07T19:43:20.8353603Z 
2025-05-07T19:43:20.8353607Z 
2025-05-07T19:43:20.8353611Z 
2025-05-07T19:43:20.8353615Z 
2025-05-07T19:43:20.8353619Z 
2025-05-07T19:43:20.8353623Z 
2025-05-07T19:43:20.8353626Z 
2025-05-07T19:43:20.8353741Z [A[A[A[A[A[A[A[A[A[A[A[A
2025-05-07T19:43:20.8353894Z 
2025-05-07T19:43:20.8353899Z 
2025-05-07T19:43:20.8353907Z 
2025-05-07T19:43:20.8353911Z 
2025-05-07T19:43:20.8353914Z 
2025-05-07T19:43:20.8353918Z 
2025-05-07T19:43:20.8353922Z 
2025-05-07T19:43:20.8353926Z 
2025-05-07T19:43:20.8353930Z 
2025-05-07T19:43:20.8353934Z 
2025-05-07T19:43:20.8353938Z 
2025-05-07T19:43:20.8353941Z 
2025-05-07T19:43:20.8353945Z 
2025-05-07T19:43:20.8354078Z [A[A[A[A[A[A[A[A[A[A[A[A[A done
2025-05-07T19:43:21.1491559Z Preparing transaction: - \ | done
2025-05-07T19:43:27.9242225Z Verifying transaction: - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - done
2025-05-07T19:43:31.6435144Z Executing transaction: | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | / - \ | done
2025-05-07T19:43:32.0464640Z [INSTALL] Adding symlink librhash.so.0, which is needed by CMake ...
2025-05-07T19:43:33.5325672Z + ln -s /__w/_temp/conda_environment_14891846315/lib/librhash.so /__w/_temp/conda_environment_14891846315/lib/librhash.so.0
2025-05-07T19:43:33.5326137Z 
2025-05-07T19:43:33.5348866Z 
2025-05-07T19:43:33.5379602Z [EXEC] [ATTEMPT 0/3]    + conda run -p /__w/_temp/conda_environment_14891846315 pip install build
2025-05-07T19:43:37.8278021Z WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager, possibly rendering your system unusable. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv. Use the --root-user-action option if you know what you are doing and want to suppress this warning.
2025-05-07T19:43:37.8279372Z 
2025-05-07T19:43:37.8279472Z Collecting build
2025-05-07T19:43:37.8279765Z   Downloading build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
2025-05-07T19:43:37.8280467Z Requirement already satisfied: packaging>=19.1 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from build) (25.0)
2025-05-07T19:43:37.8281050Z Collecting pyproject_hooks (from build)
2025-05-07T19:43:37.8281421Z   Downloading pyproject_hooks-1.2.0-py3-none-any.whl.metadata (1.3 kB)
2025-05-07T19:43:37.8281818Z Collecting importlib-metadata>=4.6 (from build)
2025-05-07T19:43:37.8282225Z   Downloading importlib_metadata-8.7.0-py3-none-any.whl.metadata (4.8 kB)
2025-05-07T19:43:37.8282913Z Requirement already satisfied: tomli>=1.1.0 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from build) (2.2.1)
2025-05-07T19:43:37.8283541Z Collecting zipp>=3.20 (from importlib-metadata>=4.6->build)
2025-05-07T19:43:37.8283935Z   Downloading zipp-3.21.0-py3-none-any.whl.metadata (3.7 kB)
2025-05-07T19:43:37.8284314Z Downloading build-1.2.2.post1-py3-none-any.whl (22 kB)
2025-05-07T19:43:37.8284704Z Downloading importlib_metadata-8.7.0-py3-none-any.whl (27 kB)
2025-05-07T19:43:37.8285493Z Downloading zipp-3.21.0-py3-none-any.whl (9.6 kB)
2025-05-07T19:43:37.8285873Z Downloading pyproject_hooks-1.2.0-py3-none-any.whl (10 kB)
2025-05-07T19:43:37.8286335Z Installing collected packages: zipp, pyproject_hooks, importlib-metadata, build
2025-05-07T19:43:37.8286663Z 
2025-05-07T19:43:37.8286953Z Successfully installed build-1.2.2.post1 importlib-metadata-8.7.0 pyproject_hooks-1.2.0 zipp-3.21.0
2025-05-07T19:43:37.8287338Z 
2025-05-07T19:43:39.3775155Z /__w/_temp/conda_environment_14891846315/bin/make
2025-05-07T19:43:39.3776631Z 
2025-05-07T19:43:39.4556056Z [CHECK] Binary make found in PATH
2025-05-07T19:43:40.9259805Z /__w/_temp/conda_environment_14891846315/bin/cmake
2025-05-07T19:43:40.9260054Z 
2025-05-07T19:43:41.0037660Z [CHECK] Binary cmake found in PATH
2025-05-07T19:43:42.4775397Z /__w/_temp/conda_environment_14891846315/bin/ninja
2025-05-07T19:43:42.4775649Z 
2025-05-07T19:43:42.5558632Z [CHECK] Binary ninja found in PATH
2025-05-07T19:43:44.0208885Z [CHECK] Python (sub-)package 'click' found ...
2025-05-07T19:43:45.5171406Z [CHECK] Python (sub-)package 'hypothesis' found ...
2025-05-07T19:43:46.8738715Z [CHECK] Python (sub-)package 'jinja2' found ...
2025-05-07T19:43:48.4441746Z [CHECK] Python (sub-)package 'skbuild' found ...
2025-05-07T19:43:49.9097759Z [CHECK] Python (sub-)package 'wheel' found ...
2025-05-07T19:43:49.9100831Z [INSTALL] Successfully installed all the build tools
2025-05-07T19:43:49.9125997Z [NOVA] Time taken to install Build Tools: 39 seconds
2025-05-07T19:43:49.9126861Z ################################################################################
2025-05-07T19:43:49.9127218Z # Collect PyTorch Environment Information (for Reporting Issues)
2025-05-07T19:43:49.9127539Z #
2025-05-07T19:43:49.9150827Z # [2025-05-07T19:43:49.914Z] + collect_pytorch_env_info /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:49.9151258Z ################################################################################
2025-05-07T19:43:49.9151449Z 
2025-05-07T19:43:49.9174573Z [EXEC] [ATTEMPT 0/3]    + wget -q --timeout 1 pypi.org -O /dev/null
2025-05-07T19:43:50.0496147Z [CHECK] Network does not appear to be blocked.
2025-05-07T19:43:50.0505048Z [INFO] Downloading the PyTorch environment info collection script ...
2025-05-07T19:43:50.0505608Z + wget -q https://raw.githubusercontent.com/pytorch/pytorch/main/torch/utils/collect_env.py
2025-05-07T19:43:50.0505975Z 
2025-05-07T19:43:50.1889372Z 
2025-05-07T19:43:50.1890006Z [INFO] Collecting PyTorch environment info (will be needed for reporting issues to PyTorch) ...
2025-05-07T19:43:50.1920427Z [EXEC] [ATTEMPT 0/3]    + conda run -p /__w/_temp/conda_environment_14891846315 python collect_env.py
2025-05-07T19:43:56.0986558Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/_subclasses/functional_tensor.py:279: UserWarning: Failed to initialize NumPy: No module named 'numpy' (Triggered internally at /pytorch/torch/csrc/utils/tensor_numpy.cpp:81.)
2025-05-07T19:43:56.0987725Z   cpu = _conversion_method_template(device=torch.device("cpu"))
2025-05-07T19:43:56.0987977Z 
2025-05-07T19:43:56.0988107Z Collecting environment information...
2025-05-07T19:43:56.0988366Z PyTorch version: 2.8.0.dev20250507+cu128
2025-05-07T19:43:56.0988615Z Is debug build: False
2025-05-07T19:43:56.0988812Z CUDA used to build PyTorch: 12.8
2025-05-07T19:43:56.0989046Z ROCM used to build PyTorch: N/A
2025-05-07T19:43:56.0989196Z 
2025-05-07T19:43:56.0989308Z OS: AlmaLinux 8.10 (Cerulean Leopard) (aarch64)
2025-05-07T19:43:56.0989627Z GCC version: (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9)
2025-05-07T19:43:56.0989913Z Clang version: Could not collect
2025-05-07T19:43:56.0990141Z CMake version: version 4.0.2
2025-05-07T19:43:56.0990359Z Libc version: glibc-2.28
2025-05-07T19:43:56.0990491Z 
2025-05-07T19:43:56.0990763Z Python version: 3.9.22 | packaged by conda-forge | (main, Apr 14 2025, 23:27:42)  [GCC 13.3.0] (64-bit runtime)
2025-05-07T19:43:56.0991331Z Python platform: Linux-6.1.130-139.222.amzn2023.aarch64-aarch64-with-glibc2.28
2025-05-07T19:43:56.0992416Z Is CUDA available: False
2025-05-07T19:43:56.0992655Z CUDA runtime version: 12.8.61
2025-05-07T19:43:56.0992879Z CUDA_MODULE_LOADING set to: N/A
2025-05-07T19:43:56.0993129Z GPU models and configuration: Could not collect
2025-05-07T19:43:56.0993417Z Nvidia driver version: Could not collect
2025-05-07T19:43:56.0993666Z cuDNN version: Could not collect
2025-05-07T19:43:56.0993894Z HIP runtime version: N/A
2025-05-07T19:43:56.0994095Z MIOpen runtime version: N/A
2025-05-07T19:43:56.0994531Z Is XNNPACK available: True
2025-05-07T19:43:56.0994668Z 
2025-05-07T19:43:56.0994729Z CPU:
2025-05-07T19:43:56.0994883Z Architecture:        aarch64
2025-05-07T19:43:56.0995102Z Byte Order:          Little Endian
2025-05-07T19:43:56.0995312Z CPU(s):              16
2025-05-07T19:43:56.0995503Z On-line CPU(s) list: 0-15
2025-05-07T19:43:56.0995701Z Thread(s) per core:  1
2025-05-07T19:43:56.0995892Z Core(s) per cluster: 16
2025-05-07T19:43:56.0996078Z Socket(s):           -
2025-05-07T19:43:56.0996262Z Cluster(s):          1
2025-05-07T19:43:56.0996453Z NUMA node(s):        1
2025-05-07T19:43:56.0996637Z Vendor ID:           ARM
2025-05-07T19:43:56.0996822Z Model:               1
2025-05-07T19:43:56.0997013Z Stepping:            r1p1
2025-05-07T19:43:56.0997213Z BogoMIPS:            2100.00
2025-05-07T19:43:56.0997412Z L1d cache:           64K
2025-05-07T19:43:56.0997599Z L1i cache:           64K
2025-05-07T19:43:56.0997784Z L2 cache:            1024K
2025-05-07T19:43:56.0997993Z L3 cache:            32768K
2025-05-07T19:43:56.0998193Z NUMA node0 CPU(s):   0-15
2025-05-07T19:43:56.0999002Z Flags:               fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T19:43:56.0999780Z 
2025-05-07T19:43:56.0999862Z Versions of relevant libraries:
2025-05-07T19:43:56.1000098Z [pip3] pytorch-triton==3.3.0+git96316ce5
2025-05-07T19:43:56.1000368Z [pip3] torch==2.8.0.dev20250507+cu128
2025-05-07T19:43:56.1000699Z [conda] pytorch-triton            3.3.0+git96316ce5          pypi_0    pypi
2025-05-07T19:43:56.1001110Z [conda] torch                     2.8.0.dev20250507+cu128          pypi_0    pypi
2025-05-07T19:43:56.1001357Z 
2025-05-07T19:43:56.1782376Z [NOVA] Time taken to collect PyTorch environment information: 7 seconds
2025-05-07T19:43:56.1782799Z [NOVA] Setting the FBGEMM build target: genai ...
2025-05-07T19:43:56.1794663Z [INSTALL] Set environment variables LD_LIBRARY_PATH ...
2025-05-07T19:43:56.1797440Z + conda env config vars set -p /__w/_temp/conda_environment_14891846315 LD_LIBRARY_PATH=/usr/local/lib:/usr/local/cuda-12.8/lib64:/opt/rh/gcc-toolset-11/root/usr/lib64:/opt/rh/gcc-toolset-11/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64:/opt/rh/gcc-toolset-14/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64/dyninst:/opt/rh/gcc-toolset-14/root/usr/lib/dyninst CUDNN_INCLUDE_DIR=/usr/local/cuda-12.8/include CUDNN_LIBRARY=/usr/local/cuda-12.8/lib64
2025-05-07T19:43:56.1799142Z 
2025-05-07T19:43:56.5100949Z To make your changes take effect please reactivate your environment
2025-05-07T19:43:56.5865061Z 
2025-05-07T19:43:56.5865784Z [NOVA] -------- Finding libcuda.so -----------
2025-05-07T19:43:56.5996010Z + ln /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libcuda.so -s /usr/local/lib/libcuda.so.1
2025-05-07T19:43:56.5996394Z 
2025-05-07T19:43:56.6021330Z 
2025-05-07T19:43:56.6021899Z [NOVA] -------- Finding NVML_LIB_PATH -----------
2025-05-07T19:43:56.6127715Z [NOVA] looking in /usr/local/cuda-12.8
2025-05-07T19:43:56.6128158Z [NOVA] NVML_LIB_PATH = /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so
2025-05-07T19:43:56.6128587Z [NOVA] ------------------------------------------
2025-05-07T19:43:56.6153997Z [NOVA] Time taken to find NVML_LIB_PATH: 0 seconds
2025-05-07T19:43:56.6154317Z [NOVA] Setting the FBGEMM build variant: cuda ...
2025-05-07T19:43:56.6156252Z ################################################################################
2025-05-07T19:43:56.6156940Z # Prepare FBGEMM-GPU Build
2025-05-07T19:43:56.6157171Z #
2025-05-07T19:43:56.6180527Z # [2025-05-07T19:43:56.617Z] + prepare_fbgemm_gpu_build /__w/_temp/conda_environment_14891846315
2025-05-07T19:43:56.6180974Z ################################################################################
2025-05-07T19:43:56.6181169Z 
2025-05-07T19:43:56.6204459Z [EXEC] [ATTEMPT 0/3]    + wget -q --timeout 1 pypi.org -O /dev/null
2025-05-07T19:43:56.7555027Z [CHECK] Network does not appear to be blocked.
2025-05-07T19:43:56.7576329Z [BUILD] Running git submodules update ...
2025-05-07T19:43:56.7605384Z [EXEC] [ATTEMPT 0/3]    + git submodule sync
2025-05-07T19:43:56.8003557Z Synchronizing submodule url for '../external/asmjit'
2025-05-07T19:43:56.8004005Z Synchronizing submodule url for '../external/composable_kernel'
2025-05-07T19:43:56.8004394Z Synchronizing submodule url for '../external/cpuinfo'
2025-05-07T19:43:56.8004740Z Synchronizing submodule url for '../external/cutlass'
2025-05-07T19:43:56.8005143Z Synchronizing submodule url for '../external/googletest'
2025-05-07T19:43:56.8005523Z Synchronizing submodule url for '../external/hipify_torch'
2025-05-07T19:43:56.8005872Z Synchronizing submodule url for '../external/json'
2025-05-07T19:43:56.8041666Z [EXEC] [ATTEMPT 0/3]    + git submodule update --init --recursive
2025-05-07T19:43:56.8608401Z [BUILD] Installing other build dependencies ...
2025-05-07T19:43:56.8635443Z [EXEC] [ATTEMPT 0/3]    + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python -m pip install -r requirements.txt
2025-05-07T19:43:58.2430549Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:43:58.2430923Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:43:58.7378774Z Collecting backports.tarfile (from -r requirements.txt (line 13))
2025-05-07T19:43:58.7527214Z   Downloading backports.tarfile-1.2.0-py3-none-any.whl.metadata (2.0 kB)
2025-05-07T19:43:58.7630892Z Requirement already satisfied: build in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from -r requirements.txt (line 14)) (1.2.2.post1)
2025-05-07T19:43:58.9103550Z Collecting cmake (from -r requirements.txt (line 15))
2025-05-07T19:43:58.9185290Z   Downloading cmake-4.0.0-py3-none-manylinux_2_17_aarch64.manylinux2014_aarch64.whl.metadata (6.3 kB)
2025-05-07T19:43:58.9268076Z Requirement already satisfied: click in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from -r requirements.txt (line 16)) (8.1.8)
2025-05-07T19:43:58.9274982Z Requirement already satisfied: hypothesis in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from -r requirements.txt (line 17)) (6.131.14)
2025-05-07T19:43:58.9280959Z Requirement already satisfied: jinja2 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from -r requirements.txt (line 18)) (3.1.4)
2025-05-07T19:43:58.9288065Z Requirement already satisfied: mpmath==1.3.0 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from -r requirements.txt (line 19)) (1.3.0)
2025-05-07T19:43:58.9650839Z Collecting ninja (from -r requirements.txt (line 20))
2025-05-07T19:43:58.9719934Z   Downloading ninja-1.11.1.4-py3-none-manylinux_2_17_aarch64.manylinux2014_aarch64.whl.metadata (5.0 kB)
2025-05-07T19:43:59.1701761Z Collecting numpy>=2.0.2 (from -r requirements.txt (line 21))
2025-05-07T19:43:59.1767032Z   Downloading numpy-2.0.2-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl.metadata (62 kB)
2025-05-07T19:43:59.2067412Z Collecting pyre-extensions (from -r requirements.txt (line 22))
2025-05-07T19:43:59.2119749Z   Downloading pyre_extensions-0.0.32-py3-none-any.whl.metadata (4.0 kB)
2025-05-07T19:43:59.2200088Z Requirement already satisfied: pyyaml in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from -r requirements.txt (line 23)) (6.0.2)
2025-05-07T19:43:59.2207132Z Requirement already satisfied: scikit-build in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from -r requirements.txt (line 24)) (0.18.1)
2025-05-07T19:43:59.2212856Z Requirement already satisfied: setuptools in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from -r requirements.txt (line 25)) (80.1.0)
2025-05-07T19:43:59.2484424Z Collecting setuptools_git_versioning (from -r requirements.txt (line 26))
2025-05-07T19:43:59.2535862Z   Downloading setuptools_git_versioning-2.1.0-py3-none-any.whl.metadata (6.1 kB)
2025-05-07T19:43:59.2762236Z Collecting tabulate (from -r requirements.txt (line 27))
2025-05-07T19:43:59.2812412Z   Downloading tabulate-0.9.0-py3-none-any.whl.metadata (34 kB)
2025-05-07T19:43:59.3108485Z Collecting patchelf (from -r requirements.txt (line 28))
2025-05-07T19:43:59.3173321Z   Downloading patchelf-0.17.2.2-py3-none-manylinux2014_aarch64.manylinux_2_17_aarch64.musllinux_1_1_aarch64.whl.metadata (3.5 kB)
2025-05-07T19:43:59.3359964Z Requirement already satisfied: packaging>=19.1 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from build->-r requirements.txt (line 14)) (25.0)
2025-05-07T19:43:59.3368062Z Requirement already satisfied: pyproject_hooks in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from build->-r requirements.txt (line 14)) (1.2.0)
2025-05-07T19:43:59.3380726Z Requirement already satisfied: importlib-metadata>=4.6 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from build->-r requirements.txt (line 14)) (8.7.0)
2025-05-07T19:43:59.3393678Z Requirement already satisfied: tomli>=1.1.0 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from build->-r requirements.txt (line 14)) (2.2.1)
2025-05-07T19:43:59.3552435Z Requirement already satisfied: attrs>=22.2.0 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from hypothesis->-r requirements.txt (line 17)) (25.3.0)
2025-05-07T19:43:59.3566611Z Requirement already satisfied: exceptiongroup>=1.0.0 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from hypothesis->-r requirements.txt (line 17)) (1.2.2)
2025-05-07T19:43:59.3576096Z Requirement already satisfied: sortedcontainers<3.0.0,>=2.1.0 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from hypothesis->-r requirements.txt (line 17)) (2.4.0)
2025-05-07T19:43:59.3605842Z Requirement already satisfied: MarkupSafe>=2.0 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from jinja2->-r requirements.txt (line 18)) (2.1.5)
2025-05-07T19:43:59.3770125Z Collecting typing-inspect (from pyre-extensions->-r requirements.txt (line 22))
2025-05-07T19:43:59.3820929Z   Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
2025-05-07T19:43:59.3900104Z Requirement already satisfied: typing-extensions in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from pyre-extensions->-r requirements.txt (line 22)) (4.12.2)
2025-05-07T19:43:59.3968299Z Requirement already satisfied: distro in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from scikit-build->-r requirements.txt (line 24)) (1.9.0)
2025-05-07T19:43:59.3985281Z Requirement already satisfied: wheel>=0.32.0 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from scikit-build->-r requirements.txt (line 24)) (0.45.1)
2025-05-07T19:43:59.4277342Z Requirement already satisfied: zipp>=3.20 in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from importlib-metadata>=4.6->build->-r requirements.txt (line 14)) (3.21.0)
2025-05-07T19:43:59.4534741Z Collecting mypy-extensions>=0.3.0 (from typing-inspect->pyre-extensions->-r requirements.txt (line 22))
2025-05-07T19:43:59.4587640Z   Downloading mypy_extensions-1.1.0-py3-none-any.whl.metadata (1.1 kB)
2025-05-07T19:43:59.4728578Z Downloading backports.tarfile-1.2.0-py3-none-any.whl (30 kB)
2025-05-07T19:43:59.4880719Z Downloading cmake-4.0.0-py3-none-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (27.2 MB)
2025-05-07T19:43:59.6920870Z    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 27.2/27.2 MB 134.7 MB/s eta 0:00:00
2025-05-07T19:43:59.6989514Z Downloading ninja-1.11.1.4-py3-none-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (156 kB)
2025-05-07T19:43:59.7092332Z Downloading numpy-2.0.2-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (13.9 MB)
2025-05-07T19:43:59.7648388Z    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 13.9/13.9 MB 261.8 MB/s eta 0:00:00
2025-05-07T19:43:59.7701308Z Downloading pyre_extensions-0.0.32-py3-none-any.whl (12 kB)
2025-05-07T19:43:59.7786452Z Downloading setuptools_git_versioning-2.1.0-py3-none-any.whl (10 kB)
2025-05-07T19:43:59.7865843Z Downloading tabulate-0.9.0-py3-none-any.whl (35 kB)
2025-05-07T19:43:59.7965292Z Downloading patchelf-0.17.2.2-py3-none-manylinux2014_aarch64.manylinux_2_17_aarch64.musllinux_1_1_aarch64.whl (462 kB)
2025-05-07T19:43:59.8071364Z Downloading typing_inspect-0.9.0-py3-none-any.whl (8.8 kB)
2025-05-07T19:43:59.8156352Z Downloading mypy_extensions-1.1.0-py3-none-any.whl (5.0 kB)
2025-05-07T19:44:00.0380076Z Installing collected packages: tabulate, setuptools_git_versioning, patchelf, numpy, ninja, mypy-extensions, cmake, backports.tarfile, typing-inspect, pyre-extensions
2025-05-07T19:44:04.5694322Z 
2025-05-07T19:44:04.5760326Z Successfully installed backports.tarfile-1.2.0 cmake-4.0.0 mypy-extensions-1.1.0 ninja-1.11.1.4 numpy-2.0.2 patchelf-0.17.2.2 pyre-extensions-0.0.32 setuptools_git_versioning-2.1.0 tabulate-0.9.0 typing-inspect-0.9.0
2025-05-07T19:44:04.5764879Z WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager, possibly rendering your system unusable. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv. Use the --root-user-action option if you know what you are doing and want to suppress this warning.
2025-05-07T19:44:04.8736409Z ################################################################################
2025-05-07T19:44:04.8736844Z # Install PyTorch (PyTorch PIP)
2025-05-07T19:44:04.8737057Z #
2025-05-07T19:44:04.8759045Z # [2025-05-07T19:44:04.875Z] + install_triton_pip /__w/_temp/conda_environment_14891846315
2025-05-07T19:44:04.8759465Z ################################################################################
2025-05-07T19:44:04.8759659Z 
2025-05-07T19:44:06.3188513Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:06.3188887Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:06.3189071Z 
2025-05-07T19:44:06.3741325Z [CHECK] Python (sub-)package 'numpy' found ...
2025-05-07T19:44:07.8795064Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:07.8795449Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:07.8795638Z 
2025-05-07T19:44:07.9353806Z [CHECK] Python (sub-)package 'skbuild' found ...
2025-05-07T19:44:07.9357463Z [BUILD] Successfully ran git submodules update
2025-05-07T19:44:07.9388696Z [NOVA] Time taken to prepare the build : 11 seconds / 00:00:11
2025-05-07T19:44:07.9428665Z [BUILD] BUILD_TARGET_VARIANT: genai/cuda
2025-05-07T19:44:07.9428983Z [BUILD] Extracted build target: genai
2025-05-07T19:44:07.9429246Z [BUILD] Extracted build variant: cuda
2025-05-07T19:44:09.1302480Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:09.1302867Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:09.1303052Z 
2025-05-07T19:44:09.1303212Z /opt/rh/gcc-toolset-11/root/usr/bin/cc
2025-05-07T19:44:09.1303392Z 
2025-05-07T19:44:09.1742660Z [CHECK] Binary cc found in PATH
2025-05-07T19:44:10.3903339Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:10.3903706Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:10.3903893Z 
2025-05-07T19:44:10.3904321Z /opt/rh/gcc-toolset-11/root/usr/bin/gcc
2025-05-07T19:44:10.3904515Z 
2025-05-07T19:44:10.4437908Z [CHECK] Binary gcc found in PATH
2025-05-07T19:44:11.7225942Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:11.7226326Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:11.7226511Z 
2025-05-07T19:44:11.7227049Z /opt/rh/gcc-toolset-11/root/usr/bin/c++
2025-05-07T19:44:11.7227241Z 
2025-05-07T19:44:11.7862411Z [CHECK] Binary c++ found in PATH
2025-05-07T19:44:13.2221754Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:13.2222146Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:13.2222326Z 
2025-05-07T19:44:13.2222796Z /opt/rh/gcc-toolset-11/root/usr/bin/g++
2025-05-07T19:44:13.2223008Z 
2025-05-07T19:44:13.2975507Z [CHECK] Binary g++ found in PATH
2025-05-07T19:44:14.6537589Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:14.6537948Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:14.8090429Z [BUILD] Extracted and set Python tag: py39
2025-05-07T19:44:14.8090820Z [BUILD] Extracted and set Python platform name: manylinux_2_28_aarch64
2025-05-07T19:44:14.8134279Z core = 16
2025-05-07T19:44:14.8175521Z sockets = -
2025-05-07T19:44:14.8176539Z [BUILD] Set multicore run option for setup.py: 
2025-05-07T19:44:14.8177936Z [CHECK] LD_LIBRARY_PATH = /opt/rh/gcc-toolset-11/root/usr/lib64:/opt/rh/gcc-toolset-11/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64:/opt/rh/gcc-toolset-14/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64/dyninst:/opt/rh/gcc-toolset-14/root/usr/lib/dyninst
2025-05-07T19:44:14.8179030Z [BUILD] Running pre-build cleanups ...
2025-05-07T19:44:14.8179275Z + rm -rf dist
2025-05-07T19:44:14.8179379Z 
2025-05-07T19:44:14.8199783Z 
2025-05-07T19:44:14.8200669Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python setup.py clean
2025-05-07T19:44:14.8201054Z 
2025-05-07T19:44:16.1928147Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:16.1928529Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:18.2331340Z INFO:root:running clean
2025-05-07T19:44:18.2335344Z [SETUP.PY] ARGV: ['setup.py', 'clean']
2025-05-07T19:44:18.2336317Z [SETUP.PY] Parsed setup.py arguments: Namespace(verbose=False, debug=False, dryrun=False, build_target='default', build_variant='cuda', package_channel='nightly', nvml_lib_path=None, nccl_lib_path=None, use_fb_only=False, cxxprefix=None)
2025-05-07T19:44:18.2337380Z [SETUP.PY] Other arguments: ['clean']
2025-05-07T19:44:18.2337785Z [SETUP.PY] CUDA CUB directory environment variable not set.  Using default CUB location.
2025-05-07T19:44:18.2338213Z [SETUP.PY] Using CUDA = /usr/local/cuda-12.8
2025-05-07T19:44:18.2338730Z [SETUP.PY] Generating version file at: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/fbgemm_gpu/docs/version.py
2025-05-07T19:44:18.2339297Z [SETUP.PY] Setting the FBGEMM build target: default ...
2025-05-07T19:44:18.2339637Z [SETUP.PY] Setting the FBGEMM build variant: cuda ...
2025-05-07T19:44:18.2340688Z [SETUP.PY] Passing CMake arguments: ['-DCMAKE_PREFIX_PATH=/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch', '-D_GLIBCXX_USE_CXX11_ABI=1', '-DFBGEMM_BUILD_TARGET=default', '-DFBGEMM_BUILD_VARIANT=cuda', "-DCMAKE_C_FLAGS=''", "-DCMAKE_CXX_FLAGS=''"]
2025-05-07T19:44:18.7641147Z 
2025-05-07T19:44:18.7641488Z [BUILD] Printing git status ...
2025-05-07T19:44:18.7641739Z + git status
2025-05-07T19:44:18.7641850Z 
2025-05-07T19:44:19.4373683Z HEAD detached at pull/4066/merge
2025-05-07T19:44:19.4373953Z Untracked files:
2025-05-07T19:44:19.4374206Z   (use "git add <file>..." to include in what will be committed)
2025-05-07T19:44:19.4374508Z 	../collect_env.py
2025-05-07T19:44:19.4374710Z 	fbgemm_gpu/docs/version.py
2025-05-07T19:44:19.4374852Z 
2025-05-07T19:44:19.4375453Z nothing added to commit but untracked files present (use "git add" to track)
2025-05-07T19:44:19.4376229Z 
2025-05-07T19:44:19.4376363Z + git diff
2025-05-07T19:44:19.4376464Z 
2025-05-07T19:44:19.4696618Z 
2025-05-07T19:44:19.4697176Z ################################################################################
2025-05-07T19:44:19.4697515Z # Configure FBGEMM-GPU Build
2025-05-07T19:44:19.4697731Z #
2025-05-07T19:44:19.4721538Z # [2025-05-07T19:44:19.471Z] + __configure_fbgemm_gpu_build 
2025-05-07T19:44:19.4722309Z ################################################################################
2025-05-07T19:44:19.4722515Z 
2025-05-07T19:44:19.4730285Z [BUILD] Setting the build target: genai ...
2025-05-07T19:44:19.4730673Z [BUILD] Configuring build as CUDA variant (this is the default behavior) ...
2025-05-07T19:44:20.9372487Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:20.9372887Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:20.9373102Z 
2025-05-07T19:44:20.9373405Z /usr/local/cuda-12.8/bin/nvcc
2025-05-07T19:44:20.9373584Z 
2025-05-07T19:44:21.0152635Z [CHECK] Binary nvcc found in PATH
2025-05-07T19:44:22.4175840Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:22.4176207Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:22.4176396Z 
2025-05-07T19:44:22.4176534Z /usr/local/cuda-12.8/include
2025-05-07T19:44:22.4176681Z 
2025-05-07T19:44:22.4791549Z [CHECK] Environment variable CUDNN_INCLUDE_DIR is defined in the Conda environment
2025-05-07T19:44:23.7575935Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:23.7576300Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:23.7576483Z 
2025-05-07T19:44:23.7577237Z /usr/local/cuda-12.8/lib64
2025-05-07T19:44:23.7577413Z 
2025-05-07T19:44:23.8146695Z [CHECK] Environment variable CUDNN_LIBRARY is defined in the Conda environment
2025-05-07T19:44:25.0950753Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:25.0951169Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:25.0951356Z 
2025-05-07T19:44:25.0952223Z /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so
2025-05-07T19:44:25.0952512Z 
2025-05-07T19:44:25.1640182Z [CHECK] Environment variable NVML_LIB_PATH is defined in the Conda environment
2025-05-07T19:44:25.1644010Z [BUILD] Using the environment-supplied TORCH_CUDA_ARCH_LIST as the CUDA targets ...
2025-05-07T19:44:25.1644515Z [BUILD] Setting the following CUDA targets: 7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T19:44:25.1644898Z [BUILD] Looking up NVML filepath ...
2025-05-07T19:44:26.5360168Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:26.5360528Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:26.6774789Z [BUILD] Looking up NCCL filepath ...
2025-05-07T19:44:28.0259097Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:28.0259468Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:28.0259649Z 
2025-05-07T19:44:29.5681887Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:29.5682271Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:29.5682451Z 
2025-05-07T19:44:29.6441489Z [BUILD] Setting NVCC verbose mode ...
2025-05-07T19:44:29.6441906Z + conda env config vars set -p /__w/_temp/conda_environment_14891846315 NVCC_VERBOSE=1
2025-05-07T19:44:29.6442211Z 
2025-05-07T19:44:29.9740885Z To make your changes take effect please reactivate your environment
2025-05-07T19:44:30.0496710Z 
2025-05-07T19:44:30.0497165Z [BUILD] Setting CUDA build args ...
2025-05-07T19:44:30.0506714Z [BUILD] Looking up CUDA version ...
2025-05-07T19:44:31.4489975Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:31.4490333Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:31.4490517Z 
2025-05-07T19:44:32.8539526Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:32.8539905Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:32.8540501Z 
2025-05-07T19:44:32.9195579Z + conda run -p /__w/_temp/conda_environment_14891846315 c++ --version | grep -i clang
2025-05-07T19:44:32.9195916Z 
2025-05-07T19:44:34.2160056Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:34.2160428Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:34.2160610Z 
2025-05-07T19:44:34.2785294Z 
2025-05-07T19:44:34.2785527Z [BUILD] Setting NVCC flags ...
2025-05-07T19:44:34.2787130Z + conda env config vars set -p /__w/_temp/conda_environment_14891846315 NVCC_PREPEND_FLAGS="-std=c++20 -Xcompiler -std=c++20 -ccbin /opt/rh/gcc-toolset-11/root/usr/bin/c++ -allow-unsupported-compiler"
2025-05-07T19:44:34.2787854Z 
2025-05-07T19:44:34.5854029Z To make your changes take effect please reactivate your environment
2025-05-07T19:44:34.6475889Z 
2025-05-07T19:44:34.6476566Z + conda run -p /__w/_temp/conda_environment_14891846315 printenv NVCC_PREPEND_FLAGS
2025-05-07T19:44:34.6476872Z 
2025-05-07T19:44:35.9701806Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:35.9702211Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:35.9702402Z 
2025-05-07T19:44:35.9703138Z -std=c++20 -Xcompiler -std=c++20 -ccbin /opt/rh/gcc-toolset-11/root/usr/bin/c++ -allow-unsupported-compiler
2025-05-07T19:44:35.9703547Z 
2025-05-07T19:44:36.0327922Z 
2025-05-07T19:44:36.0328197Z [BUILD] Setting CUDA build args ...
2025-05-07T19:44:36.0329606Z + conda run -p /__w/_temp/conda_environment_14891846315 c++ --version
2025-05-07T19:44:36.0329864Z 
2025-05-07T19:44:37.3328285Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:37.3328663Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:37.3328845Z 
2025-05-07T19:44:37.3329277Z c++ (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9)
2025-05-07T19:44:37.3329579Z Copyright (C) 2021 Free Software Foundation, Inc.
2025-05-07T19:44:37.3329965Z This is free software; see the source for copying conditions.  There is NO
2025-05-07T19:44:37.3330438Z warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
2025-05-07T19:44:37.3330761Z 
2025-05-07T19:44:37.3330766Z 
2025-05-07T19:44:37.3851660Z 
2025-05-07T19:44:37.3852484Z + conda run -p /__w/_temp/conda_environment_14891846315 c++ --version | grep -i clang
2025-05-07T19:44:37.3852828Z 
2025-05-07T19:44:38.6890526Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:38.6890894Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:38.6891082Z 
2025-05-07T19:44:38.7549916Z 
2025-05-07T19:44:38.7550423Z [BUILD] Enabling debug features in the build ...
2025-05-07T19:44:38.7552097Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/.github/scripts/fbgemm_gpu_build.bash: line 370: [: : integer expression expected
2025-05-07T19:44:38.7553459Z [BUILD] FBGEMM_GPU build arguments have been set:  --verbose --build-target=genai --build-variant=cuda --nvml_lib_path=/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so --nccl_lib_path= -DTORCH_CUDA_ARCH_LIST='7.0;8.0;9.0;9.0a;10.0a;12.0a' -DCMAKE_CXX_STANDARD=20 --debug
2025-05-07T19:44:38.7554564Z ################################################################################
2025-05-07T19:44:38.7554842Z # Build FBGEMM-GPU Package (Wheel)
2025-05-07T19:44:38.7555063Z #
2025-05-07T19:44:38.7576604Z # [2025-05-07T19:44:38.757Z] + build_fbgemm_gpu_package /__w/_temp/conda_environment_14891846315 nightly genai/cuda
2025-05-07T19:44:38.7577083Z ################################################################################
2025-05-07T19:44:38.7577279Z 
2025-05-07T19:44:38.7578053Z [BUILD] Building FBGEMM wheel (TARGET=genai, VARIANT=cuda) ...
2025-05-07T19:44:38.7581956Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python -m build --wheel --no-isolation --config-setting=--build-option=--verbose --config-setting=--build-option=--build-target=genai --config-setting=--build-option=--build-variant=cuda --config-setting=--build-option=--nvml_lib_path=/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so --config-setting=--build-option=--nccl_lib_path= --config-setting=--build-option=-DTORCH_CUDA_ARCH_LIST='7.0;8.0;9.0;9.0a;10.0a;12.0a' --config-setting=--build-option=-DCMAKE_CXX_STANDARD=20 --config-setting=--build-option=--debug --config-setting=--build-option=--package_channel=nightly --config-setting=--build-option=--python-tag=py39 --config-setting=--build-option=--plat-name=manylinux_2_28_aarch64
2025-05-07T19:44:38.7584951Z 
2025-05-07T19:44:40.0515413Z WARNING: overwriting environment variables set in the machine
2025-05-07T19:44:40.0516194Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T19:44:40.1801517Z * Getting build dependencies for wheel...
2025-05-07T19:44:41.9019378Z INFO:root:running egg_info
2025-05-07T19:44:41.9054325Z INFO:root:creating fbgemm_gpu.egg-info
2025-05-07T19:44:41.9056391Z INFO:root:writing fbgemm_gpu.egg-info/PKG-INFO
2025-05-07T19:44:41.9062855Z INFO:root:writing dependency_links to fbgemm_gpu.egg-info/dependency_links.txt
2025-05-07T19:44:41.9066093Z INFO:root:writing requirements to fbgemm_gpu.egg-info/requires.txt
2025-05-07T19:44:41.9067924Z INFO:root:writing top-level names to fbgemm_gpu.egg-info/top_level.txt
2025-05-07T19:44:41.9069553Z INFO:root:writing manifest file 'fbgemm_gpu.egg-info/SOURCES.txt'
2025-05-07T19:44:41.9144884Z INFO:root:reading manifest file 'fbgemm_gpu.egg-info/SOURCES.txt'
2025-05-07T19:44:41.9165579Z INFO:root:writing manifest file 'fbgemm_gpu.egg-info/SOURCES.txt'
2025-05-07T19:44:41.9173203Z [SETUP.PY] ARGV: ['setup.py', 'egg_info']
2025-05-07T19:44:41.9174143Z [SETUP.PY] Parsed setup.py arguments: Namespace(verbose=False, debug=False, dryrun=False, build_target='default', build_variant='cuda', package_channel='nightly', nvml_lib_path=None, nccl_lib_path=None, use_fb_only=False, cxxprefix=None)
2025-05-07T19:44:41.9175086Z [SETUP.PY] Other arguments: ['egg_info']
2025-05-07T19:44:41.9175499Z [SETUP.PY] CUDA CUB directory environment variable not set.  Using default CUB location.
2025-05-07T19:44:41.9175930Z [SETUP.PY] Using CUDA = /usr/local/cuda-12.8
2025-05-07T19:44:41.9176460Z [SETUP.PY] Generating version file at: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/fbgemm_gpu/docs/version.py
2025-05-07T19:44:41.9177002Z [SETUP.PY] Setting the FBGEMM build target: default ...
2025-05-07T19:44:41.9177349Z [SETUP.PY] Setting the FBGEMM build variant: cuda ...
2025-05-07T19:44:41.9178404Z [SETUP.PY] Passing CMake arguments: ['-DCMAKE_PREFIX_PATH=/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch', '-D_GLIBCXX_USE_CXX11_ABI=1', '-DFBGEMM_BUILD_TARGET=default', '-DFBGEMM_BUILD_VARIANT=cuda', "-DCMAKE_C_FLAGS=''", "-DCMAKE_CXX_FLAGS=''"]
2025-05-07T19:44:42.3836698Z * Building wheel...
2025-05-07T19:44:44.1684754Z [SETUP.PY] ARGV: ['setup.py', 'bdist_wheel', '--dist-dir', '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/dist/.tmp-37ddgyh7', '--verbose', '--build-target=genai', '--build-variant=cuda', '--nvml_lib_path=/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so', '--nccl_lib_path=', '-DTORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a', '-DCMAKE_CXX_STANDARD=20', '--debug', '--package_channel=nightly', '--python-tag=py39', '--plat-name=manylinux_2_28_aarch64']
2025-05-07T19:44:44.1687287Z [SETUP.PY] Parsed setup.py arguments: Namespace(verbose=True, debug=True, dryrun=False, build_target='genai', build_variant='cuda', package_channel='nightly', nvml_lib_path='/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so', nccl_lib_path='', use_fb_only=False, cxxprefix=None)
2025-05-07T19:44:44.1689041Z [SETUP.PY] Other arguments: ['bdist_wheel', '--dist-dir', '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/dist/.tmp-37ddgyh7', '-DTORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a', '-DCMAKE_CXX_STANDARD=20', '--python-tag=py39', '--plat-name=manylinux_2_28_aarch64']
2025-05-07T19:44:44.1690091Z [SETUP.PY] CUDA CUB directory environment variable not set.  Using default CUB location.
2025-05-07T19:44:44.1690514Z [SETUP.PY] Using CUDA = /usr/local/cuda-12.8
2025-05-07T19:44:44.1691010Z [SETUP.PY] Generating version file at: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/fbgemm_gpu/docs/version.py
2025-05-07T19:44:44.1691972Z [SETUP.PY] Setting the FBGEMM build target: genai ...
2025-05-07T19:44:44.1692305Z [SETUP.PY] Setting the FBGEMM build variant: cuda ...
2025-05-07T19:44:44.1694501Z [SETUP.PY] Passing CMake arguments: ['-DCMAKE_PREFIX_PATH=/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch', '-D_GLIBCXX_USE_CXX11_ABI=1', '-DCMAKE_VERBOSE_MAKEFILE=ON', '-DCMAKE_EXPORT_COMPILE_COMMANDS=TRUE', '-DFBGEMM_BUILD_TARGET=genai', '-DFBGEMM_BUILD_VARIANT=cuda', '-DNVML_LIB_PATH=/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so', "-DCMAKE_C_FLAGS='-DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA'", "-DCMAKE_CXX_FLAGS='-DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA'", '-DTORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a', '-DCMAKE_CXX_STANDARD=20']
2025-05-07T19:44:44.1696395Z 
2025-05-07T19:44:44.1696400Z 
2025-05-07T19:44:44.1696545Z --------------------------------------------------------------------------------
2025-05-07T19:44:44.1696864Z -- Trying 'Ninja' generator
2025-05-07T19:44:44.1697069Z --------------------------------
2025-05-07T19:44:44.1697277Z ---------------------------
2025-05-07T19:44:44.1697465Z ----------------------
2025-05-07T19:44:44.1697633Z -----------------
2025-05-07T19:44:44.1697795Z ------------
2025-05-07T19:44:44.1697940Z -------
2025-05-07T19:44:44.1698084Z --
2025-05-07T19:44:44.1810816Z CMake Deprecation Warning at CMakeLists.txt:1 (cmake_minimum_required):
2025-05-07T19:44:44.1811315Z   Compatibility with CMake < 3.10 will be removed from a future version of
2025-05-07T19:44:44.1811653Z   CMake.
2025-05-07T19:44:44.1811741Z 
2025-05-07T19:44:44.1811926Z   Update the VERSION argument <min> value.  Or, use the <min>...<max> syntax
2025-05-07T19:44:44.1812386Z   to tell CMake that the project requires at least <min> but has been updated
2025-05-07T19:44:44.1812777Z   to work with policies introduced by <max> or earlier.
2025-05-07T19:44:44.1812995Z 
2025-05-07T19:44:44.1813000Z 
2025-05-07T19:44:44.1813163Z Not searching for unused variables given on the command line.
2025-05-07T19:44:44.2412438Z -- The C compiler identification is GNU 11.2.1
2025-05-07T19:44:44.2516007Z -- Detecting C compiler ABI info
2025-05-07T19:44:44.3098431Z -- Detecting C compiler ABI info - done
2025-05-07T19:44:44.3251138Z -- Check for working C compiler: /opt/rh/gcc-toolset-11/root/usr/bin/cc - skipped
2025-05-07T19:44:44.3254609Z -- Detecting C compile features
2025-05-07T19:44:44.3259107Z -- Detecting C compile features - done
2025-05-07T19:44:44.4380600Z -- The CXX compiler identification is GNU 11.2.1
2025-05-07T19:44:44.4473110Z -- Detecting CXX compiler ABI info
2025-05-07T19:44:44.5456656Z -- Detecting CXX compiler ABI info - done
2025-05-07T19:44:44.5611555Z -- Check for working CXX compiler: /opt/rh/gcc-toolset-11/root/usr/bin/c++ - skipped
2025-05-07T19:44:44.5615873Z -- Detecting CXX compile features
2025-05-07T19:44:44.5623991Z -- Detecting CXX compile features - done
2025-05-07T19:44:44.5720513Z -- Configuring done (0.4s)
2025-05-07T19:44:44.5791485Z -- Generating done (0.0s)
2025-05-07T19:44:44.5802389Z -- Build files have been written to: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_cmake_test_compile/build
2025-05-07T19:44:44.5843631Z --
2025-05-07T19:44:44.5843796Z -------
2025-05-07T19:44:44.5843948Z ------------
2025-05-07T19:44:44.5844118Z -----------------
2025-05-07T19:44:44.5844288Z ----------------------
2025-05-07T19:44:44.5844471Z ---------------------------
2025-05-07T19:44:44.5844670Z --------------------------------
2025-05-07T19:44:44.5844913Z -- Trying 'Ninja' generator - success
2025-05-07T19:44:44.5845221Z --------------------------------------------------------------------------------
2025-05-07T19:44:44.5845458Z 
2025-05-07T19:44:44.5860773Z Configuring Project
2025-05-07T19:44:44.5860974Z   Working directory:
2025-05-07T19:44:44.5861333Z     /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build
2025-05-07T19:44:44.5861728Z   Command:
2025-05-07T19:44:44.5869952Z     /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/cmake/data/bin/cmake /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -G Ninja -DCMAKE_MAKE_PROGRAM:FILEPATH=/__w/_temp/conda_environment_14891846315/bin/ninja --no-warn-unused-cli -DCMAKE_INSTALL_PREFIX:PATH=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install -DPYTHON_VERSION_STRING:STRING=3.9.22 -DSKBUILD:INTERNAL=TRUE -DCMAKE_MODULE_PATH:PATH=/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/skbuild/resources/cmake -DPYTHON_EXECUTABLE:PATH=/__w/_temp/conda_environment_14891846315/bin/python -DPYTHON_INCLUDE_DIR:PATH=/__w/_temp/conda_environment_14891846315/include/python3.9 -DPYTHON_LIBRARY:PATH=/__w/_temp/conda_environment_14891846315/lib/libpython3.9.so -DPython_EXECUTABLE:PATH=/__w/_temp/conda_environment_14891846315/bin/python -DPython_ROOT_DIR:PATH=/__w/_temp/conda_environment_14891846315 -DPython_FIND_REGISTRY:STRING=NEVER -DPython_INCLUDE_DIR:PATH=/__w/_temp/conda_environment_14891846315/include/python3.9 -DPython_NumPy_INCLUDE_DIRS:PATH=/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/numpy/_core/include -DPython3_EXECUTABLE:PATH=/__w/_temp/conda_environment_14891846315/bin/python -DPython3_ROOT_DIR:PATH=/__w/_temp/conda_environment_14891846315 -DPython3_FIND_REGISTRY:STRING=NEVER -DPython3_INCLUDE_DIR:PATH=/__w/_temp/conda_environment_14891846315/include/python3.9 -DPython3_NumPy_INCLUDE_DIRS:PATH=/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/numpy/_core/include -DCMAKE_MAKE_PROGRAM:FILEPATH=/__w/_temp/conda_environment_14891846315/bin/ninja -DCMAKE_PREFIX_PATH=/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch -D_GLIBCXX_USE_CXX11_ABI=1 -DCMAKE_VERBOSE_MAKEFILE=ON -DCMAKE_EXPORT_COMPILE_COMMANDS=TRUE -DFBGEMM_BUILD_TARGET=genai -DFBGEMM_BUILD_VARIANT=cuda -DNVML_LIB_PATH=/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so '-DCMAKE_C_FLAGS='"'"'-DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA'"'"'' '-DCMAKE_CXX_FLAGS='"'"'-DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA'"'"'' '-DTORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a' -DCMAKE_CXX_STANDARD=20 '-DTORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a' -DCMAKE_CXX_STANDARD=20 -DCMAKE_BUILD_TYPE:STRING=Release
2025-05-07T19:44:44.5878028Z 
2025-05-07T19:44:44.5998376Z 
2025-05-07T19:44:44.5998383Z 
2025-05-07T19:44:44.5998529Z ================================================================================
2025-05-07T19:44:44.5998808Z Default C compiler flags
2025-05-07T19:44:44.5999124Z (values may be overridden by CMAKE_CXX_STANDARD and CXX_STANDARD):
2025-05-07T19:44:44.5999379Z 
2025-05-07T19:44:44.5999474Z -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA
2025-05-07T19:44:44.5999742Z ================================================================================
2025-05-07T19:44:44.5999934Z 
2025-05-07T19:44:44.6000084Z Not searching for unused variables given on the command line.
2025-05-07T19:44:44.6000368Z 
2025-05-07T19:44:44.6000372Z 
2025-05-07T19:44:44.6000474Z ================================================================================
2025-05-07T19:44:44.6000746Z Default C++ compiler flags
2025-05-07T19:44:44.6001035Z (values may be overridden by CMAKE_CXX_STANDARD and CXX_STANDARD):
2025-05-07T19:44:44.6001292Z 
2025-05-07T19:44:44.6001382Z -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA
2025-05-07T19:44:44.6001654Z ================================================================================
2025-05-07T19:44:44.6001854Z 
2025-05-07T19:44:44.6001858Z 
2025-05-07T19:44:44.6001862Z 
2025-05-07T19:44:44.6001960Z ================================================================================
2025-05-07T19:44:44.6002208Z AVX2_FLAGS:
2025-05-07T19:44:44.6002301Z 
2025-05-07T19:44:44.6002355Z -mavx2
2025-05-07T19:44:44.6002500Z -mf16c
2025-05-07T19:44:44.6002638Z -mfma
2025-05-07T19:44:44.6002781Z -fopenmp
2025-05-07T19:44:44.6002951Z ================================================================================
2025-05-07T19:44:44.6003141Z 
2025-05-07T19:44:44.6003459Z 
2025-05-07T19:44:44.6003463Z 
2025-05-07T19:44:44.6003587Z ================================================================================
2025-05-07T19:44:44.6003837Z AVX512_FLAGS:
2025-05-07T19:44:44.6003935Z 
2025-05-07T19:44:44.6003988Z -mavx2
2025-05-07T19:44:44.6004124Z -mf16c
2025-05-07T19:44:44.6004256Z -mfma
2025-05-07T19:44:44.6004396Z -mavx512f
2025-05-07T19:44:44.6004539Z -mavx512bw
2025-05-07T19:44:44.6004691Z -mavx512dq
2025-05-07T19:44:44.6004839Z -mavx512vl
2025-05-07T19:44:44.6004982Z -fopenmp
2025-05-07T19:44:44.6005368Z ================================================================================
2025-05-07T19:44:44.6005572Z 
2025-05-07T19:44:44.6005576Z 
2025-05-07T19:44:44.6005581Z 
2025-05-07T19:44:44.6005674Z ================================================================================
2025-05-07T19:44:44.6005947Z The project is built using scikit-build
2025-05-07T19:44:44.6006208Z ================================================================================
2025-05-07T19:44:44.6006398Z 
2025-05-07T19:44:44.6006424Z 
2025-05-07T19:44:44.6006428Z 
2025-05-07T19:44:44.6006523Z ================================================================================
2025-05-07T19:44:44.6006768Z Build Settings
2025-05-07T19:44:44.6006869Z 
2025-05-07T19:44:44.6006951Z FBGEMM_BUILD_TARGET    : genai
2025-05-07T19:44:44.6007168Z FBGEMM_BUILD_VARIANT   : cuda
2025-05-07T19:44:44.6007317Z 
2025-05-07T19:44:44.6007386Z NVCC_VERBOSE           : 
2025-05-07T19:44:44.6007581Z CUDNN_INCLUDE_DIR      : 
2025-05-07T19:44:44.6007784Z CUDNN_LIBRARY          : 
2025-05-07T19:44:44.6008122Z NVML_LIB_PATH          : /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so
2025-05-07T19:44:44.6008515Z TORCH_CUDA_ARCH_LIST   : 7.0
2025-05-07T19:44:44.6008712Z 8.0
2025-05-07T19:44:44.6008841Z 9.0
2025-05-07T19:44:44.6008975Z 9.0a
2025-05-07T19:44:44.6009105Z 10.0a
2025-05-07T19:44:44.6009242Z 12.0a
2025-05-07T19:44:44.6009324Z 
2025-05-07T19:44:44.6009392Z HIP_ROOT_DIR           : 
2025-05-07T19:44:44.6009596Z HIPCC_VERBOSE          : 
2025-05-07T19:44:44.6009789Z AMDGPU_TARGETS         : 
2025-05-07T19:44:44.6009989Z PYTORCH_ROCM_ARCH      : 
2025-05-07T19:44:44.6010206Z ================================================================================
2025-05-07T19:44:44.6010398Z 
2025-05-07T19:44:44.7033390Z -- The CXX compiler identification is GNU 11.2.1
2025-05-07T19:44:44.7507687Z -- The C compiler identification is GNU 11.2.1
2025-05-07T19:44:45.8090411Z -- The CUDA compiler identification is NVIDIA 12.8.61 with host compiler GNU 11.2.1
2025-05-07T19:44:45.8191743Z -- Detecting CXX compiler ABI info
2025-05-07T19:44:45.9208696Z -- Detecting CXX compiler ABI info - done
2025-05-07T19:44:45.9369372Z -- Check for working CXX compiler: /opt/rh/gcc-toolset-11/root/usr/bin/c++ - skipped
2025-05-07T19:44:45.9373387Z -- Detecting CXX compile features
2025-05-07T19:44:45.9381664Z -- Detecting CXX compile features - done
2025-05-07T19:44:45.9550422Z -- Detecting C compiler ABI info
2025-05-07T19:44:46.0137947Z -- Detecting C compiler ABI info - done
2025-05-07T19:44:46.0296081Z -- Check for working C compiler: /opt/rh/gcc-toolset-11/root/usr/bin/cc - skipped
2025-05-07T19:44:46.0300100Z -- Detecting C compile features
2025-05-07T19:44:46.0304888Z -- Detecting C compile features - done
2025-05-07T19:44:46.0449165Z -- Detecting CUDA compiler ABI info
2025-05-07T19:44:47.0344090Z -- Detecting CUDA compiler ABI info - done
2025-05-07T19:44:47.0829332Z -- Check for working CUDA compiler: /usr/local/cuda-12.8/bin/nvcc - skipped
2025-05-07T19:44:47.0867719Z -- Detecting CUDA compile features
2025-05-07T19:44:47.0873209Z -- Detecting CUDA compile features - done
2025-05-07T19:44:47.0986730Z -- Performing Test C_HAS_AVX_1
2025-05-07T19:44:47.1316338Z -- Performing Test C_HAS_AVX_1 - Failed
2025-05-07T19:44:47.1317984Z -- Performing Test C_HAS_AVX_2
2025-05-07T19:44:47.1572370Z -- Performing Test C_HAS_AVX_2 - Failed
2025-05-07T19:44:47.1574234Z -- Performing Test C_HAS_AVX_3
2025-05-07T19:44:47.1904685Z -- Performing Test C_HAS_AVX_3 - Failed
2025-05-07T19:44:47.1907814Z -- Performing Test C_HAS_AVX2_1
2025-05-07T19:44:47.2238391Z -- Performing Test C_HAS_AVX2_1 - Failed
2025-05-07T19:44:47.2240366Z -- Performing Test C_HAS_AVX2_2
2025-05-07T19:44:47.2503874Z -- Performing Test C_HAS_AVX2_2 - Failed
2025-05-07T19:44:47.2505728Z -- Performing Test C_HAS_AVX2_3
2025-05-07T19:44:47.2839466Z -- Performing Test C_HAS_AVX2_3 - Failed
2025-05-07T19:44:47.2842572Z -- Performing Test C_HAS_AVX512_1
2025-05-07T19:44:47.3176625Z -- Performing Test C_HAS_AVX512_1 - Failed
2025-05-07T19:44:47.3178263Z -- Performing Test C_HAS_AVX512_2
2025-05-07T19:44:47.3502790Z -- Performing Test C_HAS_AVX512_2 - Failed
2025-05-07T19:44:47.3504570Z -- Performing Test C_HAS_AVX512_3
2025-05-07T19:44:47.3842704Z -- Performing Test C_HAS_AVX512_3 - Failed
2025-05-07T19:44:47.3845771Z -- Performing Test CXX_HAS_AVX_1
2025-05-07T19:44:47.4178669Z -- Performing Test CXX_HAS_AVX_1 - Failed
2025-05-07T19:44:47.4180552Z -- Performing Test CXX_HAS_AVX_2
2025-05-07T19:44:47.4436370Z -- Performing Test CXX_HAS_AVX_2 - Failed
2025-05-07T19:44:47.4439123Z -- Performing Test CXX_HAS_AVX_3
2025-05-07T19:44:47.4770998Z -- Performing Test CXX_HAS_AVX_3 - Failed
2025-05-07T19:44:47.4774444Z -- Performing Test CXX_HAS_AVX2_1
2025-05-07T19:44:47.5109371Z -- Performing Test CXX_HAS_AVX2_1 - Failed
2025-05-07T19:44:47.5111465Z -- Performing Test CXX_HAS_AVX2_2
2025-05-07T19:44:47.5373139Z -- Performing Test CXX_HAS_AVX2_2 - Failed
2025-05-07T19:44:47.5374868Z -- Performing Test CXX_HAS_AVX2_3
2025-05-07T19:44:47.5714558Z -- Performing Test CXX_HAS_AVX2_3 - Failed
2025-05-07T19:44:47.5717480Z -- Performing Test CXX_HAS_AVX512_1
2025-05-07T19:44:47.6049018Z -- Performing Test CXX_HAS_AVX512_1 - Failed
2025-05-07T19:44:47.6050769Z -- Performing Test CXX_HAS_AVX512_2
2025-05-07T19:44:47.6372892Z -- Performing Test CXX_HAS_AVX512_2 - Failed
2025-05-07T19:44:47.6375062Z -- Performing Test CXX_HAS_AVX512_3
2025-05-07T19:44:47.6710911Z -- Performing Test CXX_HAS_AVX512_3 - Failed
2025-05-07T19:44:47.6917429Z -- Found CUDA: /usr/local/cuda-12.8 (found version "12.8") 
2025-05-07T19:44:47.6959443Z -- Found CUDAToolkit: /usr/local/cuda-12.8/include (found version "12.8.61")
2025-05-07T19:44:47.7045766Z -- Performing Test CMAKE_HAVE_LIBC_PTHREAD
2025-05-07T19:44:47.7727056Z -- Performing Test CMAKE_HAVE_LIBC_PTHREAD - Failed
2025-05-07T19:44:47.7727991Z -- Looking for pthread_create in pthreads
2025-05-07T19:44:47.8229996Z -- Looking for pthread_create in pthreads - not found
2025-05-07T19:44:47.8230528Z -- Looking for pthread_create in pthread
2025-05-07T19:44:47.8846326Z -- Looking for pthread_create in pthread - found
2025-05-07T19:44:47.8858356Z -- Found Threads: TRUE
2025-05-07T19:44:47.9635223Z -- PyTorch: CUDA detected: 12.8
2025-05-07T19:44:47.9635559Z -- PyTorch: CUDA nvcc is: /usr/local/cuda-12.8/bin/nvcc
2025-05-07T19:44:47.9635903Z -- PyTorch: CUDA toolkit directory: /usr/local/cuda-12.8
2025-05-07T19:44:48.1021982Z -- PyTorch: Header version is: 12.8
2025-05-07T19:44:48.3570467Z -- Found Python: /__w/_temp/conda_environment_14891846315/bin/python (found version "3.9.22") found components: Interpreter
2025-05-07T19:44:48.3594331Z CMake Warning at /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/share/cmake/Caffe2/public/cuda.cmake:140 (message):
2025-05-07T19:44:48.3594976Z   Failed to compute shorthash for libnvrtc.so
2025-05-07T19:44:48.3595252Z Call Stack (most recent call first):
2025-05-07T19:44:48.3595829Z   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/share/cmake/Caffe2/Caffe2Config.cmake:86 (include)
2025-05-07T19:44:48.3596704Z   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/share/cmake/Torch/TorchConfig.cmake:68 (find_package)
2025-05-07T19:44:48.3597449Z   /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/cmake/modules/PyTorchSetup.cmake:14 (find_package)
2025-05-07T19:44:48.3597872Z   CMakeLists.txt:112 (include)
2025-05-07T19:44:48.3598021Z 
2025-05-07T19:44:48.3598032Z 
2025-05-07T19:44:48.3598517Z -- USE_CUDNN is set to 0. Compiling without cuDNN support
2025-05-07T19:44:48.3598905Z -- USE_CUSPARSELT is set to 0. Compiling without cuSPARSELt support
2025-05-07T19:44:48.3599286Z -- USE_CUDSS is set to 0. Compiling without cuDSS support
2025-05-07T19:44:48.3599634Z -- USE_CUFILE is set to 0. Compiling without cuFile support
2025-05-07T19:44:48.3600769Z -- Added CUDA NVCC flags for: -gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_90,code=sm_90;-gencode;arch=compute_90a,code=sm_90a;-gencode;arch=compute_100a,code=sm_100a;-gencode;arch=compute_120a,code=sm_120a
2025-05-07T19:44:48.3953279Z CMake Warning at /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/share/cmake/Torch/TorchConfig.cmake:22 (message):
2025-05-07T19:44:48.3953937Z   static library kineto_LIBRARY-NOTFOUND not found.
2025-05-07T19:44:48.3954225Z Call Stack (most recent call first):
2025-05-07T19:44:48.3954846Z   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/share/cmake/Torch/TorchConfig.cmake:125 (append_torchlib_if_found)
2025-05-07T19:44:48.3955653Z   /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/cmake/modules/PyTorchSetup.cmake:14 (find_package)
2025-05-07T19:44:48.3956074Z   CMakeLists.txt:112 (include)
2025-05-07T19:44:48.3956225Z 
2025-05-07T19:44:48.3956230Z 
2025-05-07T19:44:48.3961537Z -- Found Torch: /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch.so
2025-05-07T19:44:48.3962518Z 
2025-05-07T19:44:48.3962526Z 
2025-05-07T19:44:48.3962749Z ================================================================================
2025-05-07T19:44:48.3963076Z PyTorch Flags:
2025-05-07T19:44:48.3963250Z  
2025-05-07T19:44:48.3963392Z TORCH_INCLUDE_DIRS:
2025-05-07T19:44:48.3963724Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include
2025-05-07T19:44:48.3964337Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include
2025-05-07T19:44:48.3964808Z  
2025-05-07T19:44:48.3964952Z TORCH_LIBRARIES:
2025-05-07T19:44:48.3965118Z torch
2025-05-07T19:44:48.3965260Z torch_library
2025-05-07T19:44:48.3965585Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so
2025-05-07T19:44:48.3966002Z /usr/local/cuda-12.8/lib64/libnvrtc.so
2025-05-07T19:44:48.3966418Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so
2025-05-07T19:44:48.3966815Z  
2025-05-07T19:44:48.3966954Z TORCH_CUDA_OPTIONS:
2025-05-07T19:44:48.3967159Z --expt-relaxed-constexpr
2025-05-07T19:44:48.3967384Z -D__CUDA_NO_HALF_OPERATORS__
2025-05-07T19:44:48.3967610Z -D__CUDA_NO_BFLOAT16_CONVERSIONS__
2025-05-07T19:44:48.3967847Z -D__CUDA_NO_HALF2_OPERATORS__
2025-05-07T19:44:48.3968082Z ================================================================================
2025-05-07T19:44:48.3968279Z 
2025-05-07T19:44:48.3968284Z 
2025-05-07T19:44:48.3968289Z 
2025-05-07T19:44:48.3968381Z ================================================================================
2025-05-07T19:44:48.3968632Z NCCL Flags
2025-05-07T19:44:48.3968729Z 
2025-05-07T19:44:48.3968796Z NCCL_INCLUDE_DIRS=
2025-05-07T19:44:48.3968970Z NCCL_LIBRARIES=
2025-05-07T19:44:48.3969173Z ================================================================================
2025-05-07T19:44:48.3969364Z 
2025-05-07T19:44:48.3969369Z 
2025-05-07T19:44:48.3969373Z 
2025-05-07T19:44:48.3969462Z ================================================================================
2025-05-07T19:44:48.3969720Z CUDA Driver Path
2025-05-07T19:44:48.3969834Z 
2025-05-07T19:44:48.3969998Z CUDA_DRIVER_LIBRARIES=/usr/local/cuda-12.8/lib64/stubs/libcuda.so
2025-05-07T19:44:48.3970341Z ================================================================================
2025-05-07T19:44:48.3970531Z 
2025-05-07T19:44:48.3970769Z -- Found NVML_LIB_PATH: /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so
2025-05-07T19:44:48.3993893Z 
2025-05-07T19:44:48.3993899Z 
2025-05-07T19:44:48.3994424Z ================================================================================
2025-05-07T19:44:48.3994718Z GPU CPP Library Target: asmjit (SHARED)
2025-05-07T19:44:48.3994947Z  
2025-05-07T19:44:48.3995086Z CPU_SRCS:
2025-05-07T19:44:48.3995175Z 
2025-05-07T19:44:48.3995228Z  
2025-05-07T19:44:48.3995363Z GPU_SRCS:
2025-05-07T19:44:48.3995451Z 
2025-05-07T19:44:48.3995503Z  
2025-05-07T19:44:48.3995652Z CUDA_SPECIFIC_SRCS:
2025-05-07T19:44:48.3995788Z 
2025-05-07T19:44:48.3995845Z  
2025-05-07T19:44:48.3995983Z HIP_SPECIFIC_SRCS:
2025-05-07T19:44:48.3996325Z 
2025-05-07T19:44:48.3996402Z  
2025-05-07T19:44:48.3996540Z OTHER_SRCS:
2025-05-07T19:44:48.3996923Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64assembler.cpp
2025-05-07T19:44:48.3997558Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64builder.cpp
2025-05-07T19:44:48.3998191Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64compiler.cpp
2025-05-07T19:44:48.3998842Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64emithelper.cpp
2025-05-07T19:44:48.3999484Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64formatter.cpp
2025-05-07T19:44:48.4000097Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64func.cpp
2025-05-07T19:44:48.4000701Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64instapi.cpp
2025-05-07T19:44:48.4001324Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64instdb.cpp
2025-05-07T19:44:48.4001942Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64operand.cpp
2025-05-07T19:44:48.4002556Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/a64rapass.cpp
2025-05-07T19:44:48.4003182Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/arm/armformatter.cpp
2025-05-07T19:44:48.4003815Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/archtraits.cpp
2025-05-07T19:44:48.4004450Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/assembler.cpp
2025-05-07T19:44:48.4005059Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/builder.cpp
2025-05-07T19:44:48.4005684Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/codeholder.cpp
2025-05-07T19:44:48.4006315Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/codewriter.cpp
2025-05-07T19:44:48.4006931Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/compiler.cpp
2025-05-07T19:44:48.4007552Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/constpool.cpp
2025-05-07T19:44:48.4008157Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/cpuinfo.cpp
2025-05-07T19:44:48.4008782Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/emithelper.cpp
2025-05-07T19:44:48.4009407Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/emitter.cpp
2025-05-07T19:44:48.4010031Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/emitterutils.cpp
2025-05-07T19:44:48.4010677Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/environment.cpp
2025-05-07T19:44:48.4011316Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/errorhandler.cpp
2025-05-07T19:44:48.4011961Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/formatter.cpp
2025-05-07T19:44:48.4012568Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/func.cpp
2025-05-07T19:44:48.4013194Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/funcargscontext.cpp
2025-05-07T19:44:48.4013832Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/globals.cpp
2025-05-07T19:44:48.4014607Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/inst.cpp
2025-05-07T19:44:48.4015197Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/instdb.cpp
2025-05-07T19:44:48.4015820Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/jitallocator.cpp
2025-05-07T19:44:48.4016464Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/jitruntime.cpp
2025-05-07T19:44:48.4017205Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/logger.cpp
2025-05-07T19:44:48.4017821Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/operand.cpp
2025-05-07T19:44:48.4018451Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/osutils.cpp
2025-05-07T19:44:48.4019126Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/ralocal.cpp
2025-05-07T19:44:48.4019724Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/rapass.cpp
2025-05-07T19:44:48.4020320Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/rastack.cpp
2025-05-07T19:44:48.4020916Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/string.cpp
2025-05-07T19:44:48.4021509Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/support.cpp
2025-05-07T19:44:48.4022106Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/target.cpp
2025-05-07T19:44:48.4022700Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/type.cpp
2025-05-07T19:44:48.4023291Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/virtmem.cpp
2025-05-07T19:44:48.4023880Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/zone.cpp
2025-05-07T19:44:48.4024470Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/zonehash.cpp
2025-05-07T19:44:48.4025084Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/zonelist.cpp
2025-05-07T19:44:48.4025702Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/zonestack.cpp
2025-05-07T19:44:48.4026312Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/zonetree.cpp
2025-05-07T19:44:48.4026932Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/core/zonevector.cpp
2025-05-07T19:44:48.4027566Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86assembler.cpp
2025-05-07T19:44:48.4028194Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86builder.cpp
2025-05-07T19:44:48.4028814Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86compiler.cpp
2025-05-07T19:44:48.4029446Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86emithelper.cpp
2025-05-07T19:44:48.4030096Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86formatter.cpp
2025-05-07T19:44:48.4030708Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86func.cpp
2025-05-07T19:44:48.4031318Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86instapi.cpp
2025-05-07T19:44:48.4032119Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86instdb.cpp
2025-05-07T19:44:48.4032745Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86operand.cpp
2025-05-07T19:44:48.4033358Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src/asmjit/x86/x86rapass.cpp
2025-05-07T19:44:48.4033765Z  
2025-05-07T19:44:48.4033900Z CC_FLAGS:
2025-05-07T19:44:48.4033989Z 
2025-05-07T19:44:48.4034041Z  
2025-05-07T19:44:48.4034179Z NVCC_FLAGS:
2025-05-07T19:44:48.4034272Z 
2025-05-07T19:44:48.4034324Z  
2025-05-07T19:44:48.4034462Z HIPCC_FLAGS:
2025-05-07T19:44:48.4034562Z 
2025-05-07T19:44:48.4034816Z  
2025-05-07T19:44:48.4034954Z INCLUDE_DIRS:
2025-05-07T19:44:48.4035181Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include
2025-05-07T19:44:48.4035486Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T19:44:48.4035790Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include
2025-05-07T19:44:48.4036121Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include
2025-05-07T19:44:48.4036711Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include
2025-05-07T19:44:48.4037546Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include
2025-05-07T19:44:48.4038122Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src
2025-05-07T19:44:48.4038578Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include
2025-05-07T19:44:48.4039048Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include
2025-05-07T19:44:48.4039563Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include
2025-05-07T19:44:48.4040113Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include
2025-05-07T19:44:48.4040612Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include
2025-05-07T19:44:48.4040936Z  
2025-05-07T19:44:48.4041081Z Selected Source Files:
2025-05-07T19:44:48.4059357Z 
2025-05-07T19:44:48.4059441Z  
2025-05-07T19:44:48.4059604Z HIPified Source Files:
2025-05-07T19:44:48.4059742Z 
2025-05-07T19:44:48.4059799Z  
2025-05-07T19:44:48.4059945Z Library Dependencies:
2025-05-07T19:44:48.4060135Z torch
2025-05-07T19:44:48.4060281Z torch_library
2025-05-07T19:44:48.4060624Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so
2025-05-07T19:44:48.4061048Z /usr/local/cuda-12.8/lib64/libnvrtc.so
2025-05-07T19:44:48.4061464Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so
2025-05-07T19:44:48.4061905Z /usr/local/cuda-12.8/lib64/stubs/libcuda.so
2025-05-07T19:44:48.4062273Z /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so
2025-05-07T19:44:48.4062594Z  
2025-05-07T19:44:48.4062732Z Output Library:
2025-05-07T19:44:48.4062892Z asmjit
2025-05-07T19:44:48.4063024Z  
2025-05-07T19:44:48.4063170Z Destination Directory:
2025-05-07T19:44:48.4063351Z fbgemm_gpu
2025-05-07T19:44:48.4063541Z ================================================================================
2025-05-07T19:44:48.4063738Z 
2025-05-07T19:44:48.4063743Z 
2025-05-07T19:44:48.4063748Z 
2025-05-07T19:44:48.4063849Z ================================================================================
2025-05-07T19:44:48.4064126Z GPU CPP Library Target: fbgemm (SHARED)
2025-05-07T19:44:48.4064357Z  
2025-05-07T19:44:48.4064489Z CPU_SRCS:
2025-05-07T19:44:48.4064584Z 
2025-05-07T19:44:48.4064637Z  
2025-05-07T19:44:48.4064763Z GPU_SRCS:
2025-05-07T19:44:48.4064859Z 
2025-05-07T19:44:48.4064917Z  
2025-05-07T19:44:48.4065060Z CUDA_SPECIFIC_SRCS:
2025-05-07T19:44:48.4065176Z 
2025-05-07T19:44:48.4065236Z  
2025-05-07T19:44:48.4065380Z HIP_SPECIFIC_SRCS:
2025-05-07T19:44:48.4065490Z 
2025-05-07T19:44:48.4065542Z  
2025-05-07T19:44:48.4065678Z OTHER_SRCS:
2025-05-07T19:44:48.4065962Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../src/EmbeddingSpMDM.cc
2025-05-07T19:44:48.4066457Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../src/EmbeddingSpMDMAutovec.cc
2025-05-07T19:44:48.4066959Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../src/EmbeddingSpMDMNBit.cc
2025-05-07T19:44:48.4067429Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../src/QuantUtils.cc
2025-05-07T19:44:48.4067887Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../src/RefImplementations.cc
2025-05-07T19:44:48.4068406Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../src/RowWiseSparseAdagradFused.cc
2025-05-07T19:44:48.4068902Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../src/SparseAdagrad.cc
2025-05-07T19:44:48.4069315Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../src/Utils.cc
2025-05-07T19:44:48.4069607Z  
2025-05-07T19:44:48.4070121Z CC_FLAGS:
2025-05-07T19:44:48.4070217Z 
2025-05-07T19:44:48.4070269Z  
2025-05-07T19:44:48.4070401Z NVCC_FLAGS:
2025-05-07T19:44:48.4070500Z 
2025-05-07T19:44:48.4070553Z  
2025-05-07T19:44:48.4070688Z HIPCC_FLAGS:
2025-05-07T19:44:48.4070791Z 
2025-05-07T19:44:48.4070844Z  
2025-05-07T19:44:48.4070981Z INCLUDE_DIRS:
2025-05-07T19:44:48.4071200Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include
2025-05-07T19:44:48.4071512Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T19:44:48.4072114Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include
2025-05-07T19:44:48.4072467Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include
2025-05-07T19:44:48.4072890Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include
2025-05-07T19:44:48.4073489Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include
2025-05-07T19:44:48.4074052Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src
2025-05-07T19:44:48.4074505Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include
2025-05-07T19:44:48.4074988Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include
2025-05-07T19:44:48.4075493Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include
2025-05-07T19:44:48.4076039Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include
2025-05-07T19:44:48.4076543Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include
2025-05-07T19:44:48.4076865Z  
2025-05-07T19:44:48.4077013Z Selected Source Files:
2025-05-07T19:44:48.4077139Z 
2025-05-07T19:44:48.4077191Z  
2025-05-07T19:44:48.4077335Z HIPified Source Files:
2025-05-07T19:44:48.4077458Z 
2025-05-07T19:44:48.4077514Z  
2025-05-07T19:44:48.4077661Z Library Dependencies:
2025-05-07T19:44:48.4077836Z torch
2025-05-07T19:44:48.4077974Z torch_library
2025-05-07T19:44:48.4078302Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so
2025-05-07T19:44:48.4078715Z /usr/local/cuda-12.8/lib64/libnvrtc.so
2025-05-07T19:44:48.4079135Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so
2025-05-07T19:44:48.4079564Z /usr/local/cuda-12.8/lib64/stubs/libcuda.so
2025-05-07T19:44:48.4079801Z asmjit
2025-05-07T19:44:48.4080054Z /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so
2025-05-07T19:44:48.4080364Z  
2025-05-07T19:44:48.4080504Z Output Library:
2025-05-07T19:44:48.4080661Z fbgemm
2025-05-07T19:44:48.4080796Z  
2025-05-07T19:44:48.4080948Z Destination Directory:
2025-05-07T19:44:48.4081132Z fbgemm_gpu
2025-05-07T19:44:48.4081312Z ================================================================================
2025-05-07T19:44:48.4081508Z 
2025-05-07T19:44:48.4081512Z 
2025-05-07T19:44:48.4081516Z 
2025-05-07T19:44:48.4081609Z ================================================================================
2025-05-07T19:44:48.4081876Z Running code generation script ...
2025-05-07T19:44:48.4082540Z /__w/_temp/conda_environment_14891846315/bin/python /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_backward_split.py --opensource 
2025-05-07T19:44:48.4083233Z ================================================================================
2025-05-07T19:44:48.4083423Z 
2025-05-07T19:44:49.2497610Z [ARGS PARSE] Parsed arguments: Namespace(install_dir='.', is_fbcode=False, is_rocm=False)
2025-05-07T19:44:49.2498453Z [GENERAATE BACKWARD SPLIT]: ['/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_backward_split.py', '--opensource']
2025-05-07T19:44:49.2499145Z Written: gen_embedding_backward_dense_split_weighted_vbe_cuda.cu
2025-05-07T19:44:49.2499542Z Written: gen_embedding_backward_dense_split_weighted_cuda.cu
2025-05-07T19:44:49.2499951Z Written: gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.2500379Z Written: gen_embedding_backward_dense_split_unweighted_vbe_cuda.cu
2025-05-07T19:44:49.2500789Z Written: gen_embedding_backward_dense_split_unweighted_cuda.cu
2025-05-07T19:44:49.2501528Z Written: gen_embedding_backward_dense_split_weighted_vbe_meta.cpp
2025-05-07T19:44:49.2501931Z Written: gen_embedding_backward_dense_split_weighted_meta.cpp
2025-05-07T19:44:49.2502352Z Written: gen_embedding_backward_dense_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.2502786Z Written: gen_embedding_backward_dense_split_unweighted_vbe_meta.cpp
2025-05-07T19:44:49.2503197Z Written: gen_embedding_backward_dense_split_unweighted_meta.cpp
2025-05-07T19:44:49.2503803Z Written: gen_embedding_backward_dense_split_weighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.2504251Z Written: gen_embedding_backward_dense_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.2504689Z Written: gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.2505160Z Written: gen_embedding_backward_dense_split_unweighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.2505610Z Written: gen_embedding_backward_dense_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.2506048Z Written: gen_embedding_backward_dense_split_weighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.2506498Z Written: gen_embedding_backward_dense_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.2506947Z Written: gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.2507427Z Written: gen_embedding_backward_dense_split_unweighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.2507880Z Written: gen_embedding_backward_dense_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.2508303Z Written: gen_embedding_optimizer_dense_split_device_kernel.cuh
2025-05-07T19:44:49.2508664Z Written: gen_embedding_backward_split_dense.cpp
2025-05-07T19:44:49.2508976Z Written: gen_embedding_backward_dense_split_cpu.cpp
2025-05-07T19:44:49.2509336Z Written: gen_embedding_backward_adagrad_split_weighted_cuda.cu
2025-05-07T19:44:49.2509755Z Written: gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.2510191Z Written: gen_embedding_backward_adagrad_split_unweighted_cuda.cu
2025-05-07T19:44:49.2510597Z Written: gen_embedding_backward_adagrad_split_weighted_meta.cpp
2025-05-07T19:44:49.2511032Z Written: gen_embedding_backward_adagrad_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.2511473Z Written: gen_embedding_backward_adagrad_split_unweighted_meta.cpp
2025-05-07T19:44:49.2512035Z Written: gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.2512500Z Written: gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.2512975Z Written: gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.2513425Z Written: gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.2513892Z Written: gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.2514371Z Written: gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.2514804Z Written: gen_embedding_optimizer_adagrad_split_device_kernel.cuh
2025-05-07T19:44:49.2515163Z Written: gen_embedding_backward_split_adagrad.cpp
2025-05-07T19:44:49.2515500Z Written: gen_embedding_split_adagrad_pt2_autograd.cpp
2025-05-07T19:44:49.2515925Z Written: gen_embedding_backward_split_adagrad_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.2516256Z Written: lookup_adagrad.py
2025-05-07T19:44:49.2516521Z Written: gen_embedding_backward_adagrad_split_cpu.cpp
2025-05-07T19:44:49.2516855Z Written: gen_embedding_backward_split_adagrad_cpu.cpp
2025-05-07T19:44:49.2517231Z Written: gen_embedding_backward_split_adagrad_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.2517644Z Written: gen_embedding_backward_adam_split_weighted_vbe_cuda.cu
2025-05-07T19:44:49.2518037Z Written: gen_embedding_backward_adam_split_weighted_cuda.cu
2025-05-07T19:44:49.2518438Z Written: gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.2518854Z Written: gen_embedding_backward_adam_split_unweighted_vbe_cuda.cu
2025-05-07T19:44:49.2519259Z Written: gen_embedding_backward_adam_split_unweighted_cuda.cu
2025-05-07T19:44:49.2519648Z Written: gen_embedding_backward_adam_split_weighted_vbe_meta.cpp
2025-05-07T19:44:49.2520231Z Written: gen_embedding_backward_adam_split_weighted_meta.cpp
2025-05-07T19:44:49.2520630Z Written: gen_embedding_backward_adam_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.2521057Z Written: gen_embedding_backward_adam_split_unweighted_vbe_meta.cpp
2025-05-07T19:44:49.2521461Z Written: gen_embedding_backward_adam_split_unweighted_meta.cpp
2025-05-07T19:44:49.2521876Z Written: gen_embedding_backward_adam_split_weighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.2522406Z Written: gen_embedding_backward_adam_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.2522849Z Written: gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.2523315Z Written: gen_embedding_backward_adam_split_unweighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.2523753Z Written: gen_embedding_backward_adam_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.2524192Z Written: gen_embedding_backward_adam_split_weighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.2524635Z Written: gen_embedding_backward_adam_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.2525076Z Written: gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.2525545Z Written: gen_embedding_backward_adam_split_unweighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.2525989Z Written: gen_embedding_backward_adam_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.2526398Z Written: gen_embedding_optimizer_adam_split_device_kernel.cuh
2025-05-07T19:44:49.2526739Z Written: gen_embedding_backward_split_adam.cpp
2025-05-07T19:44:49.2527046Z Written: gen_embedding_split_adam_pt2_autograd.cpp
2025-05-07T19:44:49.2527403Z Written: gen_embedding_backward_split_adam_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.2527718Z Written: lookup_adam.py
2025-05-07T19:44:49.2527956Z Written: gen_embedding_backward_split_adam_cpu.cpp
2025-05-07T19:44:49.2528308Z Written: gen_embedding_backward_split_adam_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.2528693Z Written: gen_embedding_backward_lamb_split_weighted_cuda.cu
2025-05-07T19:44:49.2529095Z Written: gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.2529504Z Written: gen_embedding_backward_lamb_split_unweighted_cuda.cu
2025-05-07T19:44:49.2529888Z Written: gen_embedding_backward_lamb_split_weighted_meta.cpp
2025-05-07T19:44:49.2530295Z Written: gen_embedding_backward_lamb_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.2530711Z Written: gen_embedding_backward_lamb_split_unweighted_meta.cpp
2025-05-07T19:44:49.2531116Z Written: gen_embedding_backward_lamb_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.2531558Z Written: gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.2532003Z Written: gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.2532427Z Written: gen_embedding_backward_lamb_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.2532875Z Written: gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.2533341Z Written: gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.2533756Z Written: gen_embedding_optimizer_lamb_split_device_kernel.cuh
2025-05-07T19:44:49.2534097Z Written: gen_embedding_backward_split_lamb.cpp
2025-05-07T19:44:49.2534406Z Written: gen_embedding_split_lamb_pt2_autograd.cpp
2025-05-07T19:44:49.2534761Z Written: gen_embedding_backward_split_lamb_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.2535086Z Written: lookup_lamb.py
2025-05-07T19:44:49.2535319Z Written: gen_embedding_backward_split_lamb_cpu.cpp
2025-05-07T19:44:49.2535685Z Written: gen_embedding_backward_split_lamb_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.2536083Z Written: gen_embedding_backward_lars_sgd_split_weighted_cuda.cu
2025-05-07T19:44:49.2536789Z Written: gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.2537266Z Written: gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu
2025-05-07T19:44:49.2537673Z Written: gen_embedding_backward_lars_sgd_split_weighted_meta.cpp
2025-05-07T19:44:49.2538403Z Written: gen_embedding_backward_lars_sgd_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.2538841Z Written: gen_embedding_backward_lars_sgd_split_unweighted_meta.cpp
2025-05-07T19:44:49.2539271Z Written: gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.2539741Z Written: gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.2540218Z Written: gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.2540856Z Written: gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.2541333Z Written: gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.2541820Z Written: gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.2542255Z Written: gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh
2025-05-07T19:44:49.2542620Z Written: gen_embedding_backward_split_lars_sgd.cpp
2025-05-07T19:44:49.2542947Z Written: gen_embedding_split_lars_sgd_pt2_autograd.cpp
2025-05-07T19:44:49.2543337Z Written: gen_embedding_backward_split_lars_sgd_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.2543675Z Written: lookup_lars_sgd.py
2025-05-07T19:44:49.2543938Z Written: gen_embedding_backward_split_lars_sgd_cpu.cpp
2025-05-07T19:44:49.2544320Z Written: gen_embedding_backward_split_lars_sgd_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.2544766Z Written: gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu
2025-05-07T19:44:49.2545286Z Written: gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.2545813Z Written: gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu
2025-05-07T19:44:49.2546307Z Written: gen_embedding_backward_partial_rowwise_adam_split_weighted_meta.cpp
2025-05-07T19:44:49.2546821Z Written: gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.2547344Z Written: gen_embedding_backward_partial_rowwise_adam_split_unweighted_meta.cpp
2025-05-07T19:44:49.2547866Z Written: gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.2548410Z Written: gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.2548969Z Written: gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.2549494Z Written: gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.2550057Z Written: gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.2550626Z Written: gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.4111886Z Written: gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh
2025-05-07T19:44:49.4112402Z Written: gen_embedding_backward_split_partial_rowwise_adam.cpp
2025-05-07T19:44:49.4112823Z Written: gen_embedding_split_partial_rowwise_adam_pt2_autograd.cpp
2025-05-07T19:44:49.4113316Z Written: gen_embedding_backward_split_partial_rowwise_adam_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.4113720Z Written: lookup_partial_rowwise_adam.py
2025-05-07T19:44:49.4114062Z Written: gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp
2025-05-07T19:44:49.4114528Z Written: gen_embedding_backward_split_partial_rowwise_adam_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.4115026Z Written: gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu
2025-05-07T19:44:49.4115548Z Written: gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.4116067Z Written: gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu
2025-05-07T19:44:49.4116566Z Written: gen_embedding_backward_partial_rowwise_lamb_split_weighted_meta.cpp
2025-05-07T19:44:49.4117079Z Written: gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.4117608Z Written: gen_embedding_backward_partial_rowwise_lamb_split_unweighted_meta.cpp
2025-05-07T19:44:49.4118932Z Written: gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.4119480Z Written: gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.4120039Z Written: gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.4120568Z Written: gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.4121121Z Written: gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.4121883Z Written: gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.4122417Z Written: gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh
2025-05-07T19:44:49.4122865Z Written: gen_embedding_backward_split_partial_rowwise_lamb.cpp
2025-05-07T19:44:49.4123268Z Written: gen_embedding_split_partial_rowwise_lamb_pt2_autograd.cpp
2025-05-07T19:44:49.4123729Z Written: gen_embedding_backward_split_partial_rowwise_lamb_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.4124132Z Written: lookup_partial_rowwise_lamb.py
2025-05-07T19:44:49.4124467Z Written: gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp
2025-05-07T19:44:49.4124928Z Written: gen_embedding_backward_split_partial_rowwise_lamb_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.4125411Z Written: gen_embedding_backward_rowwise_adagrad_ssd_weighted_vbe_cuda.cu
2025-05-07T19:44:49.4125876Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu
2025-05-07T19:44:49.4126333Z Written: gen_embedding_backward_rowwise_adagrad_ssd_weighted_cuda.cu
2025-05-07T19:44:49.4126776Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu
2025-05-07T19:44:49.4127242Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.4127736Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.4128222Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_vbe_cuda.cu
2025-05-07T19:44:49.4128699Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu
2025-05-07T19:44:49.4129170Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_cuda.cu
2025-05-07T19:44:49.4129665Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu
2025-05-07T19:44:49.4130130Z Written: gen_embedding_backward_rowwise_adagrad_ssd_weighted_vbe_meta.cpp
2025-05-07T19:44:49.4130607Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_meta.cpp
2025-05-07T19:44:49.4131070Z Written: gen_embedding_backward_rowwise_adagrad_ssd_weighted_meta.cpp
2025-05-07T19:44:49.4131519Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_meta.cpp
2025-05-07T19:44:49.4131991Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.4132494Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.4132986Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_vbe_meta.cpp
2025-05-07T19:44:49.4133478Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_meta.cpp
2025-05-07T19:44:49.4133954Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_meta.cpp
2025-05-07T19:44:49.4134413Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_meta.cpp
2025-05-07T19:44:49.4134899Z Written: gen_embedding_backward_rowwise_adagrad_ssd_weighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.4135415Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.4135909Z Written: gen_embedding_backward_rowwise_adagrad_ssd_weighted_kernel_cta.cu
2025-05-07T19:44:49.4136391Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.4137172Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.4137716Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.4138493Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.4139015Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.4139523Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_kernel_cta.cu
2025-05-07T19:44:49.4140012Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.4140520Z Written: gen_embedding_backward_rowwise_adagrad_ssd_weighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.4141173Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.4141680Z Written: gen_embedding_backward_rowwise_adagrad_ssd_weighted_kernel_warp.cu
2025-05-07T19:44:49.4142164Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.4142679Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.4143225Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.4143761Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.4144286Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.4144797Z Written: gen_embedding_backward_rowwise_adagrad_ssd_unweighted_kernel_warp.cu
2025-05-07T19:44:49.4145295Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.4145826Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_gwd_kernel_cta.cu
2025-05-07T19:44:49.4146351Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_gwd_kernel_cta.cu
2025-05-07T19:44:49.4146882Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_gwd_kernel_cta.cu
2025-05-07T19:44:49.4147423Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_gwd_kernel_cta.cu
2025-05-07T19:44:49.4147957Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_gwd_kernel_warp.cu
2025-05-07T19:44:49.4148488Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_gwd_kernel_warp.cu
2025-05-07T19:44:49.4149026Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_gwd_kernel_warp.cu
2025-05-07T19:44:49.4149575Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_gwd_kernel_warp.cu
2025-05-07T19:44:49.4150087Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_gwd_cuda.cu
2025-05-07T19:44:49.4150578Z Written: gen_embedding_backward_rowwise_adagrad_split_weighted_gwd_cuda.cu
2025-05-07T19:44:49.4151067Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_gwd_cuda.cu
2025-05-07T19:44:49.4151568Z Written: gen_embedding_backward_rowwise_adagrad_split_unweighted_gwd_cuda.cu
2025-05-07T19:44:49.4152212Z Written: gen_embedding_optimizer_rowwise_adagrad_ssd_device_kernel.cuh
2025-05-07T19:44:49.4152666Z Written: gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh
2025-05-07T19:44:49.4153085Z Written: gen_embedding_backward_ssd_rowwise_adagrad.cpp
2025-05-07T19:44:49.4153443Z Written: gen_embedding_ssd_rowwise_adagrad_pt2_autograd.cpp
2025-05-07T19:44:49.4153863Z Written: gen_embedding_backward_ssd_rowwise_adagrad_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.4154231Z Written: lookup_rowwise_adagrad_ssd.py
2025-05-07T19:44:49.4154540Z Written: gen_embedding_backward_split_rowwise_adagrad.cpp
2025-05-07T19:44:49.4154911Z Written: gen_embedding_split_rowwise_adagrad_pt2_autograd.cpp
2025-05-07T19:44:49.4155353Z Written: gen_embedding_backward_split_rowwise_adagrad_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.4155728Z Written: lookup_rowwise_adagrad.py
2025-05-07T19:44:49.4156031Z Written: gen_embedding_backward_rowwise_adagrad_split_cpu.cpp
2025-05-07T19:44:49.4156419Z Written: gen_embedding_backward_split_rowwise_adagrad_cpu.cpp
2025-05-07T19:44:49.4156843Z Written: gen_embedding_backward_split_rowwise_adagrad_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.4157336Z Written: gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh
2025-05-07T19:44:49.4157998Z Written: gen_embedding_backward_split_approx_rowwise_adagrad.cpp
2025-05-07T19:44:49.4158423Z Written: gen_embedding_split_approx_rowwise_adagrad_pt2_autograd.cpp
2025-05-07T19:44:49.4158902Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.4159378Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp
2025-05-07T19:44:49.4159854Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.4160502Z Written: gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh
2025-05-07T19:44:49.4161066Z Written: gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp
2025-05-07T19:44:49.4161558Z Written: gen_embedding_split_rowwise_adagrad_with_weight_decay_pt2_autograd.cpp
2025-05-07T19:44:49.4162106Z Written: gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.4162670Z Written: gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp
2025-05-07T19:44:49.4163212Z Written: gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.4163829Z Written: gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh
2025-05-07T19:44:49.4164408Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp
2025-05-07T19:44:49.4164957Z Written: gen_embedding_split_approx_rowwise_adagrad_with_weight_decay_pt2_autograd.cpp
2025-05-07T19:44:49.4165562Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.5944586Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp
2025-05-07T19:44:49.5945215Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.5945866Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_vbe_cuda.cu
2025-05-07T19:44:49.5946433Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu
2025-05-07T19:44:49.5946989Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.5947575Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_vbe_cuda.cu
2025-05-07T19:44:49.5948140Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu
2025-05-07T19:44:49.5948707Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_vbe_meta.cpp
2025-05-07T19:44:49.5949261Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_meta.cpp
2025-05-07T19:44:49.5949830Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.5950415Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_vbe_meta.cpp
2025-05-07T19:44:49.5950988Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_meta.cpp
2025-05-07T19:44:49.5951570Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.5952253Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.5952862Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.5953483Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.5954099Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.5954697Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.5955293Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.5955903Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.5956862Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.5957471Z Written: gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.5958041Z Written: gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh
2025-05-07T19:44:49.5958549Z Written: gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp
2025-05-07T19:44:49.5959223Z Written: gen_embedding_split_rowwise_adagrad_with_counter_pt2_autograd.cpp
2025-05-07T19:44:49.5959751Z Written: gen_embedding_backward_split_rowwise_adagrad_with_counter_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.5960197Z Written: lookup_rowwise_adagrad_with_counter.py
2025-05-07T19:44:49.5960583Z Written: gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp
2025-05-07T19:44:49.5961095Z Written: gen_embedding_backward_split_rowwise_adagrad_with_counter_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.5961679Z Written: gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh
2025-05-07T19:44:49.5962227Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp
2025-05-07T19:44:49.5962735Z Written: gen_embedding_split_approx_rowwise_adagrad_with_counter_pt2_autograd.cpp
2025-05-07T19:44:49.5963331Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.5963905Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp
2025-05-07T19:44:49.5964471Z Written: gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.5965035Z Written: gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh
2025-05-07T19:44:49.5965510Z Written: gen_embedding_backward_split_rowwise_weighted_adagrad.cpp
2025-05-07T19:44:49.5965945Z Written: gen_embedding_split_rowwise_weighted_adagrad_pt2_autograd.cpp
2025-05-07T19:44:49.5966438Z Written: gen_embedding_backward_split_rowwise_weighted_adagrad_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.5966939Z Written: gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp
2025-05-07T19:44:49.5967424Z Written: gen_embedding_backward_split_rowwise_weighted_adagrad_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.5967886Z Written: gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu
2025-05-07T19:44:49.5968264Z Written: gen_embedding_backward_sgd_split_weighted_cuda.cu
2025-05-07T19:44:49.5968657Z Written: gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.5969068Z Written: gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu
2025-05-07T19:44:49.5969459Z Written: gen_embedding_backward_sgd_split_unweighted_cuda.cu
2025-05-07T19:44:49.5969845Z Written: gen_embedding_backward_sgd_split_weighted_vbe_meta.cpp
2025-05-07T19:44:49.5970227Z Written: gen_embedding_backward_sgd_split_weighted_meta.cpp
2025-05-07T19:44:49.5970629Z Written: gen_embedding_backward_sgd_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.5971054Z Written: gen_embedding_backward_sgd_split_unweighted_vbe_meta.cpp
2025-05-07T19:44:49.5971461Z Written: gen_embedding_backward_sgd_split_unweighted_meta.cpp
2025-05-07T19:44:49.5971871Z Written: gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.5972294Z Written: gen_embedding_backward_sgd_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.5972732Z Written: gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.5973199Z Written: gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu
2025-05-07T19:44:49.5973635Z Written: gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.5974063Z Written: gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.5974492Z Written: gen_embedding_backward_sgd_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.5974926Z Written: gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.5975395Z Written: gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu
2025-05-07T19:44:49.5976034Z Written: gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.5976441Z Written: gen_embedding_optimizer_sgd_split_device_kernel.cuh
2025-05-07T19:44:49.5976783Z Written: gen_embedding_backward_split_sgd.cpp
2025-05-07T19:44:49.5977080Z Written: gen_embedding_split_sgd_pt2_autograd.cpp
2025-05-07T19:44:49.5977435Z Written: gen_embedding_backward_split_sgd_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.5977744Z Written: lookup_sgd.py
2025-05-07T19:44:49.5978084Z Written: gen_embedding_backward_sgd_split_cpu.cpp
2025-05-07T19:44:49.5978410Z Written: gen_embedding_backward_split_sgd_cpu.cpp
2025-05-07T19:44:49.5978761Z Written: gen_embedding_backward_split_sgd_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.5979174Z Written: gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh
2025-05-07T19:44:49.5979551Z Written: gen_embedding_backward_split_approx_sgd.cpp
2025-05-07T19:44:49.5979895Z Written: gen_embedding_split_approx_sgd_pt2_autograd.cpp
2025-05-07T19:44:49.5980296Z Written: gen_embedding_backward_split_approx_sgd_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.5980699Z Written: gen_embedding_backward_split_approx_sgd_cpu.cpp
2025-05-07T19:44:49.5981090Z Written: gen_embedding_backward_split_approx_sgd_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.5981497Z Written: gen_embedding_backward_none_split_weighted_cuda.cu
2025-05-07T19:44:49.5981896Z Written: gen_embedding_backward_none_split_unweighted_nobag_cuda.cu
2025-05-07T19:44:49.5982303Z Written: gen_embedding_backward_none_split_unweighted_cuda.cu
2025-05-07T19:44:49.5982686Z Written: gen_embedding_backward_none_split_weighted_meta.cpp
2025-05-07T19:44:49.5983090Z Written: gen_embedding_backward_none_split_unweighted_nobag_meta.cpp
2025-05-07T19:44:49.5983508Z Written: gen_embedding_backward_none_split_unweighted_meta.cpp
2025-05-07T19:44:49.5983909Z Written: gen_embedding_backward_none_split_weighted_kernel_cta.cu
2025-05-07T19:44:49.5984350Z Written: gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu
2025-05-07T19:44:49.5984808Z Written: gen_embedding_backward_none_split_unweighted_kernel_cta.cu
2025-05-07T19:44:49.5985231Z Written: gen_embedding_backward_none_split_weighted_kernel_warp.cu
2025-05-07T19:44:49.5985676Z Written: gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu
2025-05-07T19:44:49.5986127Z Written: gen_embedding_backward_none_split_unweighted_kernel_warp.cu
2025-05-07T19:44:49.5986544Z Written: gen_embedding_optimizer_none_split_device_kernel.cuh
2025-05-07T19:44:49.5986892Z Written: gen_embedding_backward_split_none.cpp
2025-05-07T19:44:49.5987199Z Written: gen_embedding_split_none_pt2_autograd.cpp
2025-05-07T19:44:49.5987559Z Written: gen_embedding_backward_split_none_pt2_cuda_wrapper.cpp
2025-05-07T19:44:49.5987875Z Written: lookup_none.py
2025-05-07T19:44:49.5988117Z Written: gen_embedding_backward_split_none_cpu.cpp
2025-05-07T19:44:49.5988469Z Written: gen_embedding_backward_split_none_pt2_cpu_wrapper.cpp
2025-05-07T19:44:49.5988893Z Written: gen_embedding_backward_split_weighted_device_kernel_hip.hip
2025-05-07T19:44:49.5989353Z Written: gen_embedding_backward_split_unweighted_nobag_device_kernel_hip.hip
2025-05-07T19:44:49.5989831Z Written: gen_embedding_backward_split_unweighted_device_kernel_hip.hip
2025-05-07T19:44:49.5990267Z Written: gen_embedding_backward_ssd_weighted_vbe_device_kernel.cuh
2025-05-07T19:44:49.5990689Z Written: gen_embedding_backward_split_weighted_vbe_device_kernel.cuh
2025-05-07T19:44:49.5991108Z Written: gen_embedding_backward_ssd_weighted_device_kernel.cuh
2025-05-07T19:44:49.5991510Z Written: gen_embedding_backward_split_weighted_device_kernel.cuh
2025-05-07T19:44:49.5992145Z Written: gen_embedding_backward_ssd_unweighted_nobag_device_kernel.cuh
2025-05-07T19:44:49.5992608Z Written: gen_embedding_backward_split_unweighted_nobag_device_kernel.cuh
2025-05-07T19:44:49.5993058Z Written: gen_embedding_backward_ssd_unweighted_vbe_device_kernel.cuh
2025-05-07T19:44:49.5993496Z Written: gen_embedding_backward_split_unweighted_vbe_device_kernel.cuh
2025-05-07T19:44:49.5994152Z Written: gen_embedding_backward_ssd_unweighted_device_kernel.cuh
2025-05-07T19:44:49.5994569Z Written: gen_embedding_backward_split_unweighted_device_kernel.cuh
2025-05-07T19:44:49.5994971Z Written: gen_embedding_backward_split_common_device_kernel.cuh
2025-05-07T19:44:49.5995352Z Written: gen_embedding_backward_split_grad_embedding_ops.cu
2025-05-07T19:44:49.5995754Z Written: gen_embedding_backward_dense_indice_weights_codegen_cuda.cu
2025-05-07T19:44:49.5996289Z Written: gen_embedding_backward_ssd_indice_weights_codegen_cuda.cu
2025-05-07T19:44:49.5996720Z Written: gen_embedding_backward_split_indice_weights_codegen_cuda.cu
2025-05-07T19:44:49.5997071Z Written: pt2_arg_utils.h
2025-05-07T19:44:49.5997271Z Written: __init__.py
2025-05-07T19:44:49.5997457Z Written: lookup_args_ssd.py
2025-05-07T19:44:49.5997662Z Written: lookup_args.py
2025-05-07T19:44:49.6101248Z 
2025-05-07T19:44:49.6101434Z 
2025-05-07T19:44:49.6101675Z ================================================================================
2025-05-07T19:44:49.6102032Z Running code generation script ...
2025-05-07T19:44:49.6102747Z /__w/_temp/conda_environment_14891846315/bin/python /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_embedding_optimizer.py --opensource 
2025-05-07T19:44:49.6103466Z ================================================================================
2025-05-07T19:44:49.6103664Z 
2025-05-07T19:44:49.7582003Z [ARGS PARSE] Parsed arguments: Namespace(install_dir='.', is_fbcode=False, is_rocm=False)
2025-05-07T19:44:49.7582800Z [GENERATE OPTIMIZERS]: ['/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_embedding_optimizer.py', '--opensource']
2025-05-07T19:44:49.7583492Z Written: gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu
2025-05-07T19:44:49.7583892Z Written: gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu
2025-05-07T19:44:49.7584285Z Written: gen_embedding_optimizer_rowwise_adagrad_split.cpp
2025-05-07T19:44:49.7584715Z Written: gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh
2025-05-07T19:44:49.7585127Z Written: split_embedding_optimizer_rowwise_adagrad.py
2025-05-07T19:44:49.7585417Z Written: optimizer_args.py
2025-05-07T19:44:49.7721626Z 
2025-05-07T19:44:49.7721636Z 
2025-05-07T19:44:49.7721806Z ================================================================================
2025-05-07T19:44:49.7722105Z Running code generation script ...
2025-05-07T19:44:49.7722804Z /__w/_temp/conda_environment_14891846315/bin/python /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_forward_quantized.py --opensource 
2025-05-07T19:44:49.7723504Z ================================================================================
2025-05-07T19:44:49.7723691Z 
2025-05-07T19:44:49.9453744Z [ARGS PARSE] Parsed arguments: Namespace(install_dir='.', is_fbcode=False, is_rocm=False)
2025-05-07T19:44:49.9454552Z [GENERATE FORWARD QUANTIZED]: ['/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_forward_quantized.py', '--opensource']
2025-05-07T19:44:49.9455363Z Written: gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu
2025-05-07T19:44:49.9455930Z Written: gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu
2025-05-07T19:44:49.9456497Z Written: gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu
2025-05-07T19:44:49.9457060Z Written: gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu
2025-05-07T19:44:49.9457634Z Written: gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu
2025-05-07T19:44:49.9458215Z Written: gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu
2025-05-07T19:44:49.9458804Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu
2025-05-07T19:44:49.9459430Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu
2025-05-07T19:44:49.9460784Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu
2025-05-07T19:44:49.9461399Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu
2025-05-07T19:44:49.9462021Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu
2025-05-07T19:44:49.9462634Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu
2025-05-07T19:44:49.9463414Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu
2025-05-07T19:44:49.9464002Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu
2025-05-07T19:44:49.9464578Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu
2025-05-07T19:44:49.9465160Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu
2025-05-07T19:44:49.9465740Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu
2025-05-07T19:44:49.9466323Z Written: gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu
2025-05-07T19:44:49.9466876Z Written: gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu
2025-05-07T19:44:49.9467421Z Written: gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu
2025-05-07T19:44:49.9467975Z Written: gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu
2025-05-07T19:44:49.9468458Z Written: gen_embedding_forward_quantized_weighted_codegen_cpu.cpp
2025-05-07T19:44:49.9468881Z Written: gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp
2025-05-07T19:44:49.9584179Z 
2025-05-07T19:44:49.9584189Z 
2025-05-07T19:44:49.9584406Z ================================================================================
2025-05-07T19:44:49.9584735Z Running code generation script ...
2025-05-07T19:44:49.9585441Z /__w/_temp/conda_environment_14891846315/bin/python /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_forward_split.py --opensource 
2025-05-07T19:44:49.9586165Z ================================================================================
2025-05-07T19:44:49.9586365Z 
2025-05-07T19:44:50.4864045Z [ARGS PARSE] Parsed arguments: Namespace(install_dir='.', is_fbcode=False, is_rocm=False)
2025-05-07T19:44:50.4864835Z [GENERATE FORWARD SPLIT]: ['/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_forward_split.py', '--opensource']
2025-05-07T19:44:50.4865543Z Written: gen_embedding_forward_dense_weighted_vbe_codegen_cuda.cu
2025-05-07T19:44:50.4865947Z Written: gen_embedding_forward_dense_weighted_codegen_cuda.cu
2025-05-07T19:44:50.4866353Z Written: gen_embedding_forward_dense_unweighted_vbe_codegen_cuda.cu
2025-05-07T19:44:50.4866759Z Written: gen_embedding_forward_dense_unweighted_codegen_cuda.cu
2025-05-07T19:44:50.4867153Z Written: gen_embedding_forward_ssd_weighted_vbe_codegen_cuda.cu
2025-05-07T19:44:50.4867573Z Written: gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu
2025-05-07T19:44:50.4867956Z Written: gen_embedding_forward_ssd_weighted_codegen_cuda.cu
2025-05-07T19:44:50.4868332Z Written: gen_embedding_forward_split_weighted_codegen_cuda.cu
2025-05-07T19:44:50.4868727Z Written: gen_embedding_forward_ssd_unweighted_vbe_codegen_cuda.cu
2025-05-07T19:44:50.4869140Z Written: gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu
2025-05-07T19:44:50.4869546Z Written: gen_embedding_forward_ssd_unweighted_codegen_cuda.cu
2025-05-07T19:44:50.4869947Z Written: gen_embedding_forward_split_unweighted_codegen_cuda.cu
2025-05-07T19:44:50.4870371Z Written: gen_embedding_forward_split_weighted_vbe_gwd_codegen_cuda.cu
2025-05-07T19:44:50.4870794Z Written: gen_embedding_forward_split_weighted_gwd_codegen_cuda.cu
2025-05-07T19:44:50.4871232Z Written: gen_embedding_forward_split_unweighted_vbe_gwd_codegen_cuda.cu
2025-05-07T19:44:50.4871753Z Written: gen_embedding_forward_split_unweighted_gwd_codegen_cuda.cu
2025-05-07T19:44:50.4872516Z Written: gen_embedding_forward_dense_weighted_vbe_codegen_meta.cpp
2025-05-07T19:44:50.4872917Z Written: gen_embedding_forward_dense_weighted_codegen_meta.cpp
2025-05-07T19:44:50.4873329Z Written: gen_embedding_forward_dense_unweighted_vbe_codegen_meta.cpp
2025-05-07T19:44:50.4873750Z Written: gen_embedding_forward_dense_unweighted_codegen_meta.cpp
2025-05-07T19:44:50.4874146Z Written: gen_embedding_forward_ssd_weighted_vbe_codegen_meta.cpp
2025-05-07T19:44:50.4874734Z Written: gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp
2025-05-07T19:44:50.4875137Z Written: gen_embedding_forward_ssd_weighted_codegen_meta.cpp
2025-05-07T19:44:50.4875526Z Written: gen_embedding_forward_split_weighted_codegen_meta.cpp
2025-05-07T19:44:50.4875924Z Written: gen_embedding_forward_ssd_unweighted_vbe_codegen_meta.cpp
2025-05-07T19:44:50.4876346Z Written: gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp
2025-05-07T19:44:50.4876765Z Written: gen_embedding_forward_ssd_unweighted_codegen_meta.cpp
2025-05-07T19:44:50.4877193Z Written: gen_embedding_forward_split_unweighted_codegen_meta.cpp
2025-05-07T19:44:50.4877581Z Written: gen_embedding_forward_dense_weighted_vbe_kernel.cu
2025-05-07T19:44:50.4877938Z Written: gen_embedding_forward_dense_weighted_kernel.cu
2025-05-07T19:44:50.4878310Z Written: gen_embedding_forward_dense_unweighted_nobag_kernel.cu
2025-05-07T19:44:50.4878700Z Written: gen_embedding_forward_dense_unweighted_vbe_kernel.cu
2025-05-07T19:44:50.4879084Z Written: gen_embedding_forward_dense_unweighted_kernel.cu
2025-05-07T19:44:50.4879446Z Written: gen_embedding_forward_ssd_weighted_vbe_kernel.cu
2025-05-07T19:44:50.4879804Z Written: gen_embedding_forward_split_weighted_vbe_kernel.cu
2025-05-07T19:44:50.4880163Z Written: gen_embedding_forward_ssd_weighted_kernel.cu
2025-05-07T19:44:50.4880502Z Written: gen_embedding_forward_split_weighted_kernel.cu
2025-05-07T19:44:50.4880869Z Written: gen_embedding_forward_ssd_unweighted_nobag_kernel.cu
2025-05-07T19:44:50.4881265Z Written: gen_embedding_forward_split_unweighted_nobag_kernel.cu
2025-05-07T19:44:50.4881649Z Written: gen_embedding_forward_ssd_unweighted_vbe_kernel.cu
2025-05-07T19:44:50.4882028Z Written: gen_embedding_forward_split_unweighted_vbe_kernel.cu
2025-05-07T19:44:50.4882392Z Written: gen_embedding_forward_ssd_unweighted_kernel.cu
2025-05-07T19:44:50.4882749Z Written: gen_embedding_forward_split_unweighted_kernel.cu
2025-05-07T19:44:50.4883121Z Written: gen_embedding_forward_split_weighted_vbe_gwd_kernel.cu
2025-05-07T19:44:50.4883506Z Written: gen_embedding_forward_split_weighted_gwd_kernel.cu
2025-05-07T19:44:50.4883893Z Written: gen_embedding_forward_split_unweighted_vbe_gwd_kernel.cu
2025-05-07T19:44:50.4884293Z Written: gen_embedding_forward_split_unweighted_gwd_kernel.cu
2025-05-07T19:44:50.4884674Z Written: gen_embedding_forward_split_weighted_v2_kernel.cu
2025-05-07T19:44:50.4885047Z Written: gen_embedding_forward_split_unweighted_v2_kernel.cu
2025-05-07T19:44:50.4885464Z Written: gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu
2025-05-07T19:44:50.4885910Z Written: gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu
2025-05-07T19:44:50.4886352Z Written: gen_embedding_forward_ssd_unweighted_nobag_kernel_small.cu
2025-05-07T19:44:50.4886782Z Written: gen_embedding_forward_split_unweighted_nobag_kernel_small.cu
2025-05-07T19:44:50.4887185Z Written: gen_embedding_forward_split_pt2_cuda_wrapper.cpp
2025-05-07T19:44:50.4887549Z Written: gen_embedding_forward_split_pt2_cpu_wrapper.cpp
2025-05-07T19:44:50.4887908Z Written: gen_embedding_forward_ssd_pt2_cuda_wrapper.cpp
2025-05-07T19:44:50.4996438Z 
2025-05-07T19:44:50.4996452Z 
2025-05-07T19:44:50.4996589Z ================================================================================
2025-05-07T19:44:50.4996886Z Running code generation script ...
2025-05-07T19:44:50.4997558Z /__w/_temp/conda_environment_14891846315/bin/python /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_index_select.py --opensource 
2025-05-07T19:44:50.4998602Z ================================================================================
2025-05-07T19:44:50.4998793Z 
2025-05-07T19:44:50.8807545Z [ARGS PARSE] Parsed arguments: Namespace(install_dir='.', is_fbcode=False, is_rocm=False)
2025-05-07T19:44:50.8808336Z [INDEX SELECT GENERATOR]: ['/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/codegen/genscript/generate_index_select.py', '--opensource']
2025-05-07T19:44:50.8808997Z Written: gen_batch_index_select_dim0_forward_codegen_cuda.cu
2025-05-07T19:44:50.8809685Z Written: gen_batch_index_select_dim0_forward_kernel.cu
2025-05-07T19:44:50.8810062Z Written: gen_batch_index_select_dim0_forward_kernel_small.cu
2025-05-07T19:44:50.8810440Z Written: gen_batch_index_select_dim0_backward_codegen_cuda.cu
2025-05-07T19:44:50.8810818Z Written: gen_batch_index_select_dim0_backward_kernel_cta.cu
2025-05-07T19:44:50.8811186Z Written: gen_batch_index_select_dim0_backward_kernel_warp.cu
2025-05-07T19:44:50.8811617Z Written: gen_embedding_backward_split_batch_index_select_device_kernel.cuh
2025-05-07T19:44:50.8812054Z Written: gen_embedding_backward_split_grad_index_select.cu
2025-05-07T19:44:50.8812433Z Written: gen_embedding_backward_split_common_device_kernel.cuh
2025-05-07T19:44:50.9029215Z 
2025-05-07T19:44:50.9029222Z 
2025-05-07T19:44:50.9029364Z ================================================================================
2025-05-07T19:44:50.9031250Z GPU CPP Library Target: fbgemm_gpu_experimental_gen_ai (SHARED)
2025-05-07T19:44:50.9031586Z  
2025-05-07T19:44:50.9031770Z CPU_SRCS:
2025-05-07T19:44:50.9032149Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/attention/attention.cpp
2025-05-07T19:44:50.9032782Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/coalesce/coalesce.cpp
2025-05-07T19:44:50.9033395Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cpp
2025-05-07T19:44:50.9033982Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/comm/car.cpp
2025-05-07T19:44:50.9034617Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cpp
2025-05-07T19:44:50.9035297Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/moe/index_shuffling.cpp
2025-05-07T19:44:50.9035923Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cpp
2025-05-07T19:44:50.9036331Z  
2025-05-07T19:44:50.9036476Z GPU_SRCS:
2025-05-07T19:44:50.9037032Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/attention/gqa_attn_splitk.cu
2025-05-07T19:44:50.9037691Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/coalesce/coalesce.cu
2025-05-07T19:44:50.9038294Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu
2025-05-07T19:44:50.9038865Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/comm/car.cu
2025-05-07T19:44:50.9039485Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu
2025-05-07T19:44:50.9040157Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/moe/index_shuffling.cu
2025-05-07T19:44:50.9040763Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cu
2025-05-07T19:44:50.9041166Z  
2025-05-07T19:44:50.9041310Z CUDA_SPECIFIC_SRCS:
2025-05-07T19:44:50.9041806Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu
2025-05-07T19:44:50.9042639Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16i4bf16.cu
2025-05-07T19:44:50.9043480Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16i4bf16_rowwise_batched.cu
2025-05-07T19:44:50.9044389Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16i4bf16_shuffled_grouped.cu
2025-05-07T19:44:50.9045225Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16.cu
2025-05-07T19:44:50.9046450Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:44:50.9047535Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:44:50.9048470Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu
2025-05-07T19:44:50.9049672Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu
2025-05-07T19:44:50.9050625Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:44:50.9051559Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:44:50.9052494Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:44:50.9053429Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:44:50.9054360Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:44:50.9055290Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T19:44:50.9056218Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu
2025-05-07T19:44:50.9057145Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu
2025-05-07T19:44:50.9058077Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu
2025-05-07T19:44:50.9059018Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu
2025-05-07T19:44:50.9059945Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu
2025-05-07T19:44:50.9060880Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu
2025-05-07T19:44:50.9061812Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T19:44:50.9062741Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T19:44:50.9063674Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T19:44:50.9064611Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T19:44:50.9065547Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T19:44:50.9066492Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T19:44:50.9067422Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T19:44:50.9068355Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T19:44:50.9069194Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16.cu
2025-05-07T19:44:50.9070141Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_blockwise.cu
2025-05-07T19:44:50.9070967Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_cublas.cu
2025-05-07T19:44:50.9071897Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_lite.cu
2025-05-07T19:44:50.9072816Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise.cu
2025-05-07T19:44:50.9073789Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_128_128_2_1_1_t_f.cu
2025-05-07T19:44:50.9074884Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_2_1_1_f_t.cu
2025-05-07T19:44:50.9075981Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_4_4_1_f_t.cu
2025-05-07T19:44:50.9077079Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_128_128_1_1_1_f_f.cu
2025-05-07T19:44:50.9078165Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_16_128_1_1_1_f_f.cu
2025-05-07T19:44:50.9079257Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_1_1_1_f_f.cu
2025-05-07T19:44:50.9080343Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_2_1_1_f_f.cu
2025-05-07T19:44:50.9081426Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_32_128_2_1_1_f_f.cu
2025-05-07T19:44:50.9082513Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_64_128_2_1_1_f_f.cu
2025-05-07T19:44:50.9083754Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_cluster_size_and_transpose.cu
2025-05-07T19:44:50.9085085Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_tile_size.cu
2025-05-07T19:44:50.9086248Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched.cu
2025-05-07T19:44:50.9087334Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched_impl.cu
2025-05-07T19:44:50.9088418Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/handle_transposition.cu
2025-05-07T19:44:50.9089382Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_grouped.cu
2025-05-07T19:44:50.9090243Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_tensorwise.cu
2025-05-07T19:44:50.9091076Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8i4bf16_rowwise.cu
2025-05-07T19:44:50.9091897Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8i4bf16_shuffled.cu
2025-05-07T19:44:50.9092752Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8i4bf16_shuffled_grouped.cu
2025-05-07T19:44:50.9093577Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/i8i8bf16.cu
2025-05-07T19:44:50.9094573Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/i8i8bf16_dynamic.cu
2025-05-07T19:44:50.9095400Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/mixed_dtype_utils.cu
2025-05-07T19:44:50.9096171Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/bf16_fast_gemv.cu
2025-05-07T19:44:50.9097017Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/bf16fp8bf16_fast_gemv.cu
2025-05-07T19:44:50.9097800Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/fp8fp8bf16_fast_gemv.cu
2025-05-07T19:44:50.9098557Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/include/fast_gemv.cu
2025-05-07T19:44:50.9099314Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/include/fast_gemv.cuh
2025-05-07T19:44:50.9100063Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/include/utility.cuh
2025-05-07T19:44:50.9100541Z  
2025-05-07T19:44:50.9100680Z HIP_SPECIFIC_SRCS:
2025-05-07T19:44:50.9101053Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gemm/ck_extensions.hip
2025-05-07T19:44:50.9101640Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gemm/gemm.cpp
2025-05-07T19:44:50.9102364Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/bf16_grouped_gemm.hip
2025-05-07T19:44:50.9103518Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x32x128_16x16_1x1_16x8x1_16x8x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9104915Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x32x64_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9106315Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x32x64_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9107712Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x64x128_16x16_1x2_16x8x1_16x8x1_1x16x1x8_8x8x1_1x2_interwave_v1.hip
2025-05-07T19:44:50.9109113Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x64x128_16x16_1x2_16x8x1_16x8x1_1x16x1x8_8x8x1_1x2_interwave_v2.hip
2025-05-07T19:44:50.9110507Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x64x128_16x16_1x2_16x8x1_16x8x1_1x16x1x8_8x8x1_1x2_intrawave_v2.hip
2025-05-07T19:44:50.9112046Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x96x128_16x16_1x3_16x8x1_16x8x1_1x16x1x8_4x4x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9113453Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x96x128_16x16_1x3_16x8x1_16x8x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9114855Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x96x128_16x16_1x3_16x8x1_16x8x1_1x16x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9116250Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x96x128_16x16_1x3_16x8x1_16x8x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9117640Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x16x96x64_16x16_1x3_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9119210Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x32x16x64_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9120601Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x32x64x128_32x32_1x1_16x8x1_16x8x1_1x16x1x8_8x8x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9122094Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x32x64x128_32x32_1x1_16x8x1_16x8x1_1x16x1x8_8x8x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9123494Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x32x96x128_16x16_2x3_16x8x1_16x8x1_1x32x1x4_8x8x1_2x1_intrawave_v2.hip
2025-05-07T19:44:50.9124892Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x64x128x64_32x32_2x2_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9126288Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_128x64x96x64_16x16_4x3_8x16x1_8x16x1_1x32x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9127695Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x128x128x128_32x32_2x2_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9129116Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9130521Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x128x128x64_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9131925Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x128x224x64_16x16_4x7_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9133334Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x128x256x64_32x32_4x2_8x32x1_8x32x1_1x16x1x16_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9134743Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x128x96x64_16x16_4x3_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9136154Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x16x128x128_16x16_1x2_16x16x1_16x16x1_1x16x1x16_8x8x1_1x2_intrawave_v1.hip
2025-05-07T19:44:50.9137836Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x16x128x128_16x16_1x2_16x16x1_16x16x1_1x16x1x16_8x8x1_1x2_intrawave_v2.hip
2025-05-07T19:44:50.9139274Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x16x64x128_16x16_1x1_16x16x1_16x16x1_1x16x1x16_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9140692Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x224x256x32_16x16_7x8_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9142103Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x256x128x32_32x32_4x2_4x64x1_4x64x1_1x32x1x8_8x8x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9143511Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x256x160x64_16x16_8x5_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9145174Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x256x192x64_32x32_4x3_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9146577Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x256x224x64_16x16_8x7_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9148112Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x256x256x64_32x32_4x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9149524Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x32x128x128_16x16_1x4_16x16x1_16x16x1_1x32x1x8_8x8x1_1x2_intrawave_v2.hip
2025-05-07T19:44:50.9150935Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x32x224x64_16x16_1x7_8x32x1_8x32x1_1x32x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9152448Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x32x96x64_16x16_1x3_8x32x1_8x32x1_1x32x1x8_4x4x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9153839Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x32x96x64_16x16_1x3_8x32x1_8x32x1_1x32x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9155251Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x64x128x128_32x32_2x1_16x16x1_16x16x1_1x16x1x16_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9156672Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x64x192x128_16x16_4x3_16x16x1_16x16x1_1x32x1x8_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9158076Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_256x64x96x64_16x16_2x3_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9159469Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_64x16x16x128_16x16_1x1_16x4x1_16x4x1_1x16x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9160863Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_64x16x16x128_16x16_1x1_16x4x1_16x4x1_1x16x1x4_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9162243Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_64x16x16x64_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9163623Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_64x16x32x128_16x16_1x2_16x4x1_16x4x1_1x16x1x4_8x8x1_1x2_intrawave_v2.hip
2025-05-07T19:44:50.9165011Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_64x16x48x128_16x16_1x3_16x4x1_16x4x1_1x16x1x4_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9166395Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/bf16_grouped/kernels/bf16_grouped_64x16x64x128_16x16_1x4_16x4x1_16x4x1_1x16x1x4_8x8x1_1x2_intrawave_v2.hip
2025-05-07T19:44:50.9167459Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/ck_utility.hip
2025-05-07T19:44:50.9168236Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_blockwise_gemm.hip
2025-05-07T19:44:50.9169086Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/fp8_rowwise_gemm.hip
2025-05-07T19:44:50.9170368Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x128x16x128_16x16_4x1_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9171747Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x128x32x128_32x32_2x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9173271Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9174701Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2_4_split_k.hip
2025-05-07T19:44:50.9176138Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2_8_split_k.hip
2025-05-07T19:44:50.9177548Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9178930Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9180334Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2_8_split_k.hip
2025-05-07T19:44:50.9181742Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x256_16x16_1x1_16x8x1_16x8x1_1x16x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9183123Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x512_16x16_1x1_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9184523Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x512_16x16_1x1_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_interwave_v2_2_split_k.hip
2025-05-07T19:44:50.9185932Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x512_16x16_1x1_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9187337Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x512_16x16_1x1_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_intrawave_v2_2_split_k.hip
2025-05-07T19:44:50.9188746Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x16x32x512_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9190131Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x32x128x128_32x32_1x2_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9191512Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9193009Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9194388Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x32x16x256_16x16_1x1_16x8x1_16x8x1_1x32x1x4_4x4x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9195916Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x32x16x512_16x16_1x1_32x4x1_32x4x1_1x32x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9197283Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x32x16x512_16x16_1x1_32x4x1_32x4x1_1x32x1x4_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9199241Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x32x64x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9200643Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x32x64x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9202022Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x64x32x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9203401Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_128x64x32x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9204783Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x128x128_16x16_4x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9206167Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x128x128_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9207555Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x128x128_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9208939Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x128x128_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v5.hip
2025-05-07T19:44:50.9210331Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x128x256_32x32_2x2_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9211720Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x128x64_32x32_2x2_4x64x1_4x64x1_1x32x1x8_8x8x1_1x1_intrawave_v4.hip
2025-05-07T19:44:50.9213103Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x160x128_16x16_4x5_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9214484Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x160x128_32x32_1x5_8x32x1_8x32x1_1x64x1x4_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9215866Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x192x128_32x32_2x3_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9217278Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x256x128_32x32_2x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9218660Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x64x128_32x32_2x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9220042Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x64x256_32x32_2x1_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9221576Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x96x128_16x16_4x3_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9223074Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x128x96x256_32x32_1x3_16x16x1_16x16x1_1x64x1x4_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9224476Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x160x128x128_16x16_5x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9225873Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x160x256x128_16x16_5x8_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9227267Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x160x96x128_16x16_5x3_8x32x1_8x32x1_1x32x1x8_4x4x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9228683Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x16x64x128_16x16_1x1_16x16x1_8x32x1_1x16x1x16_4x4x1_1x1_intrawave_v2_8_split_k.hip
2025-05-07T19:44:50.9230106Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x16x64x512_16x16_1x1_32x8x1_32x8x1_1x16x1x16_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9231486Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x16x64x512_16x16_1x1_32x8x1_32x8x1_1x16x1x16_4x4x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9233012Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x192x128x128_16x16_6x4_8x32x1_8x32x1_1x32x1x8_8x8x1_2x2_intrawave_v3.hip
2025-05-07T19:44:50.9234410Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x192x192x128_16x16_6x6_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9235804Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x192x224x128_16x16_6x7_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9237451Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x192x256x128_16x16_6x8_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9238847Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x192x256x128_16x16_6x8_8x32x1_8x32x1_1x32x1x8_8x8x1_2x2_intrawave_v3.hip
2025-05-07T19:44:50.9240243Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x224x160x128_16x16_7x5_8x32x1_8x32x1_1x32x1x8_4x4x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9241625Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x224x192x128_16x16_7x6_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9243023Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x224x256x128_16x16_7x8_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9244411Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x128x128_16x16_8x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9245802Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x128x128_32x32_4x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9247429Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x160x128_16x16_8x5_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9248950Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x192x128_16x16_8x6_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9250340Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x192x128_32x32_4x3_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9251730Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x224x128_16x16_8x7_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9253119Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x256x128_16x16_8x8_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9254497Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x256x64_16x16_8x8_4x64x1_4x64x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9255880Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x256x64_32x32_4x4_4x64x1_4x64x1_1x32x1x8_8x8x1_1x1_intrawave_v4.hip
2025-05-07T19:44:50.9257268Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x96x128_16x16_8x3_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9258646Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x256x96x128_32x32_2x3_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9260037Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x32x128x256_32x32_1x1_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9279562Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x32x64x512_16x16_1x2_32x8x1_32x8x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9280991Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x64x128x128_32x32_1x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9282391Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x64x128x256_32x32_1x2_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9283794Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x64x16x512_16x16_1x1_32x8x1_32x8x1_1x64x1x4_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9285170Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x64x192x128_32x32_1x3_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9286564Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x64x192x256_32x32_1x3_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9287949Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x64x256x128_32x32_1x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9289320Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x64x64x128_32x32_1x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9290963Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x64x64x512_32x32_1x1_32x8x1_32x8x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9292455Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x64x96x256_16x16_2x3_16x16x1_16x16x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9293848Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x80x128x256_16x16_5x2_16x16x1_16x16x1_1x16x1x16_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9295238Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_256x96x128x128_16x16_3x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9296610Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_64x16x16x128_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4x4x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9297956Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_64x16x16x128_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9299317Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_64x16x16x256_16x16_1x1_16x4x1_16x4x1_1x16x1x4_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9300688Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_64x16x16x256_16x16_1x1_16x4x1_16x4x1_1x4x1x16_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9302047Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_64x16x16x512_16x16_1x1_32x2x1_32x2x1_1x16x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9303406Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_64x16x16x512_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9304765Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise/kernels/fp8_rowwise_64x16x16x64_16x16_1x1_4x16x1_4x16x1_1x16x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9305945Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/fp8_rowwise_batched_gemm.hip
2025-05-07T19:44:50.9307193Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x16x32x256_16x16_1x1_16x8x1_16x8x1_1x16x1x8_4x4x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9308686Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x16x32x256_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9310171Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x16x32x256_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9311813Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x16x32x256_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9313306Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x16x32x256_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9314790Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x16x32x512_16x16_1x1_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9316401Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x16x32x512_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9317984Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x16x32x512_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9319471Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x32x128x128_32x32_1x2_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9320960Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_128x32x64x128_32x32_1x1_8x16x1_8x16x1_1x16x1x8_8x8x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9322456Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x128x128x128_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9323954Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x128x128x128_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v4.hip
2025-05-07T19:44:50.9325451Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x128x128x128_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v5.hip
2025-05-07T19:44:50.9326952Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x128x128x256_32x32_2x2_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9328453Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x128x160x128_32x32_1x5_8x32x1_8x32x1_1x64x1x4_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9329955Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x128x192x128_32x32_2x3_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9331453Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x128x256x128_32x32_2x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9332944Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x128x64x128_32x32_2x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9334446Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x128x96x256_32x32_1x3_16x16x1_16x16x1_1x64x1x4_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9335936Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x16x64x512_16x16_1x1_32x8x1_32x8x1_1x16x1x16_4x4x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9337652Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x224x256x128_16x16_7x8_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9339154Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x256x128x128_16x16_8x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9340850Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x256x160x128_16x16_8x5_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9342345Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x256x192x128_16x16_8x6_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9343967Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x256x224x128_16x16_8x7_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9345465Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x256x256x128_16x16_8x8_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9346963Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x32x128x256_32x32_1x1_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9348457Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x32x64x512_16x16_1x2_32x8x1_32x8x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9349941Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x64x128x256_32x32_1x2_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9351435Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x64x192x256_32x32_1x3_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9353040Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x64x64x128_32x32_1x1_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9354517Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_256x64x64x512_32x32_1x1_32x8x1_32x8x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9356001Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_64x16x16x512_16x16_1x1_32x2x1_32x2x1_1x16x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9357477Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_64x16x16x512_16x16_1x1_32x2x1_32x2x1_1x16x1x4_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9358933Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_64x16x16x512_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4_1x1_interwave_v1.hip
2025-05-07T19:44:50.9360374Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_batched/kernels/fp8_rowwise_batched_64x16x16x512_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4_1x1_interwave_v2.hip
2025-05-07T19:44:50.9361590Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/fp8_rowwise_grouped_gemm.hip
2025-05-07T19:44:50.9362833Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9364314Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x32x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9365800Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x32x256_16x16_1x1_16x8x1_16x8x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9367398Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x32x512_16x16_1x1_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9369012Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x32x512_16x16_1x1_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9370507Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x32x512_16x16_1x1_32x4x1_32x4x1_1x16x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9371992Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x64x256_16x16_1x2_16x8x1_16x8x1_1x16x1x8_8x8x1_1x2_interwave_v1.hip
2025-05-07T19:44:50.9373482Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x64x256_16x16_1x2_16x8x1_16x8x1_1x16x1x8_8x8x1_1x2_interwave_v2.hip
2025-05-07T19:44:50.9374971Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x64x256_16x16_1x2_16x8x1_16x8x1_1x16x1x8_8x8x1_1x2_intrawave_v1.hip
2025-05-07T19:44:50.9376451Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x16x96x256_16x16_1x3_16x8x1_16x8x1_1x16x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9377932Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x32x16x128_16x16_1x1_8x16x1_8x16x1_1x16x1x8_2x2x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9379422Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x32x64x256_16x16_1x4_16x8x1_16x8x1_1x32x1x4_8x8x1_1x2_intrawave_v1.hip
2025-05-07T19:44:50.9380902Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x32x64x256_32x32_1x1_16x8x1_16x8x1_1x16x1x8_8x8x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9382387Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x64x64x256_32x32_1x2_16x8x1_16x8x1_1x16x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9383866Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_128x64x64x256_32x32_2x1_16x8x1_16x8x1_1x16x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9385353Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x128x128x128_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9386851Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x128x128x128_32x32_2x2_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9388356Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x128x128x256_32x32_2x2_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9389857Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x128x224x128_16x16_4x7_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9391466Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x128x256x128_32x32_4x2_8x32x1_8x32x1_1x16x1x16_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9393085Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x128x96x128_16x16_4x3_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9394694Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x16x128x256_16x16_1x2_16x16x1_16x16x1_1x16x1x16_8x8x1_1x2_intrawave_v1.hip
2025-05-07T19:44:50.9396219Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x16x128x256_16x16_1x2_16x16x1_16x16x1_1x16x1x16_8x8x1_1x2_intrawave_v2.hip
2025-05-07T19:44:50.9397731Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x16x128x256_16x16_1x2_16x16x1_16x16x1_1x16x1x16_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9399232Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x16x64x256_16x16_1x1_16x16x1_16x16x1_1x16x1x16_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9400732Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x16x64x256_16x16_1x1_16x16x1_16x16x1_1x16x1x16_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9402232Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x16x64x256_16x16_1x1_16x16x1_16x16x1_1x16x1x16_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9403729Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x16x64x512_16x16_1x1_32x8x1_32x8x1_1x16x1x16_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9405218Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x192x96x128_16x16_6x3_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9406726Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x224x256x128_16x16_7x8_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v3.hip
2025-05-07T19:44:50.9408233Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x256x128x64_32x32_4x2_4x64x1_4x64x1_1x32x1x8_8x8x1_1x1_interwave_v1.hip
2025-05-07T19:44:50.9409723Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x256x160x128_32x32_2x5_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9411230Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x256x192x128_32x32_4x3_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9412738Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x256x224x128_16x16_8x7_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9414232Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x256x256x128_32x32_4x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9415734Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x256x256x128_32x32_8x2_8x32x1_8x32x1_1x16x1x16_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9417343Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x32x128x128_16x16_1x4_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_interwave_v2.hip
2025-05-07T19:44:50.9418918Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x32x160x128_16x16_1x5_8x32x1_8x32x1_1x32x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9420412Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x32x160x128_16x16_1x5_8x32x1_8x32x1_1x32x1x8_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9421901Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x32x256x128_16x16_1x8_8x32x1_8x32x1_1x32x1x8_8x8x1_1x2_intrawave_v1.hip
2025-05-07T19:44:50.9423386Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x32x32x512_16x16_1x1_32x8x1_32x8x1_1x32x1x8_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9424870Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x32x32x512_16x16_1x1_32x8x1_32x8x1_1x32x1x8_4x4x1_1x1_intrawave_v2.hip
2025-05-07T19:44:50.9426358Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x32x64x512_16x16_2x1_32x8x1_32x8x1_1x32x1x8_8x8x1_2x1_intrawave_v2.hip
2025-05-07T19:44:50.9427852Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x64x128x256_32x32_1x2_16x16x1_16x16x1_1x32x1x8_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9429370Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x64x128x256_32x32_2x1_16x16x1_16x16x1_1x16x1x16_8x8x1_1x1_intrawave_v3.hip
2025-05-07T19:44:50.9430873Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x64x160x128_16x16_2x5_8x32x1_8x32x1_1x64x1x4_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9432483Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_256x64x192x128_16x16_4x3_8x32x1_8x32x1_1x32x1x8_8x8x1_2x1_intrawave_v3.hip
2025-05-07T19:44:50.9433965Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_64x16x16x128_16x16_1x1_8x8x1_8x8x1_1x16x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9435440Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_64x16x16x256_16x16_1x1_16x4x1_16x4x1_1x16x1x4_4x4x1_1x1_interwave_v2.hip
2025-05-07T19:44:50.9437123Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_64x16x16x256_16x16_1x1_16x4x1_16x4x1_1x16x1x4_4x4x1_1x1_intrawave_v1.hip
2025-05-07T19:44:50.9438614Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_64x16x32x256_16x16_1x2_16x4x1_16x4x1_1x16x1x4_8x8x1_1x2_intrawave_v1.hip
2025-05-07T19:44:50.9440092Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_64x16x64x256_16x16_1x4_16x4x1_16x4x1_1x16x1x4_8x8x1_1x2_interwave_v1.hip
2025-05-07T19:44:50.9441564Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_rowwise_grouped/kernels/fp8_rowwise_grouped_64x16x64x256_16x16_1x4_16x4x1_16x4x1_1x16x1x4_8x8x1_1x2_intrawave_v1.hip
2025-05-07T19:44:50.9443009Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/ck_extensions/fp8_tensorwise_gemm.hip
2025-05-07T19:44:50.9443527Z  
2025-05-07T19:44:50.9443666Z OTHER_SRCS:
2025-05-07T19:44:50.9443764Z 
2025-05-07T19:44:50.9443816Z  
2025-05-07T19:44:50.9443945Z CC_FLAGS:
2025-05-07T19:44:50.9444038Z 
2025-05-07T19:44:50.9444090Z  
2025-05-07T19:44:50.9444223Z NVCC_FLAGS:
2025-05-07T19:44:50.9444464Z 
2025-05-07T19:44:50.9444519Z  
2025-05-07T19:44:50.9444655Z HIPCC_FLAGS:
2025-05-07T19:44:50.9444753Z 
2025-05-07T19:44:50.9444803Z  
2025-05-07T19:44:50.9444942Z INCLUDE_DIRS:
2025-05-07T19:44:50.9445160Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include
2025-05-07T19:44:50.9445470Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T19:44:50.9445777Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include
2025-05-07T19:44:50.9446118Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include
2025-05-07T19:44:50.9446548Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include
2025-05-07T19:44:50.9447147Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include
2025-05-07T19:44:50.9447711Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src
2025-05-07T19:44:50.9448164Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include
2025-05-07T19:44:50.9448640Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include
2025-05-07T19:44:50.9449148Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include
2025-05-07T19:44:50.9449695Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include
2025-05-07T19:44:50.9450190Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include
2025-05-07T19:44:50.9450665Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize
2025-05-07T19:44:50.9451024Z  
2025-05-07T19:44:50.9451168Z Selected Source Files:
2025-05-07T19:44:50.9451560Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/attention/attention.cpp
2025-05-07T19:44:50.9452177Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/coalesce/coalesce.cpp
2025-05-07T19:44:50.9452789Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cpp
2025-05-07T19:44:50.9453372Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/comm/car.cpp
2025-05-07T19:44:50.9453998Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cpp
2025-05-07T19:44:50.9454663Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/moe/index_shuffling.cpp
2025-05-07T19:44:50.9455272Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cpp
2025-05-07T19:44:50.9455908Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/attention/gqa_attn_splitk.cu
2025-05-07T19:44:50.9456558Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/coalesce/coalesce.cu
2025-05-07T19:44:50.9457164Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu
2025-05-07T19:44:50.9457735Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/comm/car.cu
2025-05-07T19:44:50.9458348Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu
2025-05-07T19:44:50.9459015Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/moe/index_shuffling.cu
2025-05-07T19:44:50.9459618Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cu
2025-05-07T19:44:50.9460336Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu
2025-05-07T19:44:50.9461155Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16i4bf16.cu
2025-05-07T19:44:50.9462174Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16i4bf16_rowwise_batched.cu
2025-05-07T19:44:50.9463072Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16i4bf16_shuffled_grouped.cu
2025-05-07T19:44:50.9463901Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16.cu
2025-05-07T19:44:50.9464901Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:44:50.9465844Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:44:50.9466772Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu
2025-05-07T19:44:50.9467706Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu
2025-05-07T19:44:50.9468655Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:44:50.9469585Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:44:50.9470518Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:44:50.9471450Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:44:50.9472530Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:44:50.9473463Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T19:44:50.9474397Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu
2025-05-07T19:44:50.9475327Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu
2025-05-07T19:44:50.9476256Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu
2025-05-07T19:44:50.9477188Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu
2025-05-07T19:44:50.9478116Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu
2025-05-07T19:44:50.9479045Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu
2025-05-07T19:44:50.9479979Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T19:44:50.9480916Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T19:44:50.9481847Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T19:44:50.9482786Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T19:44:50.9483720Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T19:44:50.9484651Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T19:44:50.9485744Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T19:44:50.9486676Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T19:44:50.9487524Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16.cu
2025-05-07T19:44:50.9488431Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_blockwise.cu
2025-05-07T19:44:50.9489264Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_cublas.cu
2025-05-07T19:44:50.9490059Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_lite.cu
2025-05-07T19:44:50.9490860Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise.cu
2025-05-07T19:44:50.9491823Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_128_128_2_1_1_t_f.cu
2025-05-07T19:44:50.9492929Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_2_1_1_f_t.cu
2025-05-07T19:44:50.9494023Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_4_4_1_f_t.cu
2025-05-07T19:44:50.9495123Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_128_128_1_1_1_f_f.cu
2025-05-07T19:44:50.9496215Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_16_128_1_1_1_f_f.cu
2025-05-07T19:44:50.9497299Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_1_1_1_f_f.cu
2025-05-07T19:44:50.9498406Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_2_1_1_f_f.cu
2025-05-07T19:44:50.9499503Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_32_128_2_1_1_f_f.cu
2025-05-07T19:44:50.9500600Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_64_128_2_1_1_f_f.cu
2025-05-07T19:44:50.9501843Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_cluster_size_and_transpose.cu
2025-05-07T19:44:50.9503164Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_tile_size.cu
2025-05-07T19:44:50.9504335Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched.cu
2025-05-07T19:44:50.9505424Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched_impl.cu
2025-05-07T19:44:50.9506510Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/handle_transposition.cu
2025-05-07T19:44:50.9507481Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_grouped.cu
2025-05-07T19:44:50.9508342Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_tensorwise.cu
2025-05-07T19:44:50.9509171Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8i4bf16_rowwise.cu
2025-05-07T19:44:50.9510139Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8i4bf16_shuffled.cu
2025-05-07T19:44:50.9510992Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8i4bf16_shuffled_grouped.cu
2025-05-07T19:44:50.9511941Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/i8i8bf16.cu
2025-05-07T19:44:50.9512850Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/i8i8bf16_dynamic.cu
2025-05-07T19:44:50.9513679Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/mixed_dtype_utils.cu
2025-05-07T19:44:50.9514452Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/bf16_fast_gemv.cu
2025-05-07T19:44:50.9515200Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/bf16fp8bf16_fast_gemv.cu
2025-05-07T19:44:50.9515979Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/fp8fp8bf16_fast_gemv.cu
2025-05-07T19:44:50.9516733Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/include/fast_gemv.cu
2025-05-07T19:44:50.9517563Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/include/fast_gemv.cuh
2025-05-07T19:44:50.9518308Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/include/utility.cuh
2025-05-07T19:44:50.9518791Z  
2025-05-07T19:44:50.9518935Z HIPified Source Files:
2025-05-07T19:44:50.9519070Z 
2025-05-07T19:44:50.9519125Z  
2025-05-07T19:44:50.9519269Z Library Dependencies:
2025-05-07T19:44:50.9519444Z torch
2025-05-07T19:44:50.9519583Z torch_library
2025-05-07T19:44:50.9519915Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so
2025-05-07T19:44:50.9520331Z /usr/local/cuda-12.8/lib64/libnvrtc.so
2025-05-07T19:44:50.9520750Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so
2025-05-07T19:44:50.9521194Z /usr/local/cuda-12.8/lib64/stubs/libcuda.so
2025-05-07T19:44:50.9521546Z /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so
2025-05-07T19:44:50.9521865Z  
2025-05-07T19:44:50.9522001Z Output Library:
2025-05-07T19:44:50.9522197Z fbgemm_gpu_experimental_gen_ai
2025-05-07T19:44:50.9522402Z  
2025-05-07T19:44:50.9522550Z Destination Directory:
2025-05-07T19:44:50.9522677Z 
2025-05-07T19:44:50.9522776Z ================================================================================
2025-05-07T19:44:50.9522973Z 
2025-05-07T19:44:50.9522977Z 
2025-05-07T19:44:50.9522981Z 
2025-05-07T19:44:50.9523070Z ================================================================================
2025-05-07T19:44:50.9523382Z Adding to Package: fbgemm_gpu/experimental/gen_ai
2025-05-07T19:44:50.9523644Z  
2025-05-07T19:44:50.9523779Z TARGETS:
2025-05-07T19:44:50.9523942Z fbgemm_gpu_experimental_gen_ai
2025-05-07T19:44:50.9524150Z  
2025-05-07T19:44:50.9524280Z FILES:
2025-05-07T19:44:50.9524367Z 
2025-05-07T19:44:50.9524457Z ================================================================================
2025-05-07T19:44:50.9524650Z 
2025-05-07T19:44:50.9524655Z 
2025-05-07T19:44:50.9524662Z 
2025-05-07T19:44:50.9524755Z ================================================================================
2025-05-07T19:44:50.9525106Z GPU CPP Library Target: fbgemm_gpu_experimental_example_py (SHARED)
2025-05-07T19:44:50.9525422Z  
2025-05-07T19:44:50.9525562Z CPU_SRCS:
2025-05-07T19:44:50.9525654Z 
2025-05-07T19:44:50.9525706Z  
2025-05-07T19:44:50.9525842Z GPU_SRCS:
2025-05-07T19:44:50.9526175Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/src/example_nccl.cpp
2025-05-07T19:44:50.9526773Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/src/example_ops.cpp
2025-05-07T19:44:50.9527372Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/src/cutlass_sgemm_nn.cu
2025-05-07T19:44:50.9527992Z  
2025-05-07T19:44:50.9528134Z CUDA_SPECIFIC_SRCS:
2025-05-07T19:44:50.9528254Z 
2025-05-07T19:44:50.9528306Z  
2025-05-07T19:44:50.9528442Z HIP_SPECIFIC_SRCS:
2025-05-07T19:44:50.9528561Z 
2025-05-07T19:44:50.9528613Z  
2025-05-07T19:44:50.9528748Z OTHER_SRCS:
2025-05-07T19:44:50.9528842Z 
2025-05-07T19:44:50.9528893Z  
2025-05-07T19:44:50.9529031Z CC_FLAGS:
2025-05-07T19:44:50.9529117Z 
2025-05-07T19:44:50.9529170Z  
2025-05-07T19:44:50.9529305Z NVCC_FLAGS:
2025-05-07T19:44:50.9529396Z 
2025-05-07T19:44:50.9529448Z  
2025-05-07T19:44:50.9529686Z HIPCC_FLAGS:
2025-05-07T19:44:50.9529792Z 
2025-05-07T19:44:50.9529844Z  
2025-05-07T19:44:50.9529978Z INCLUDE_DIRS:
2025-05-07T19:44:50.9530205Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include
2025-05-07T19:44:50.9530515Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T19:44:50.9530824Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include
2025-05-07T19:44:50.9531154Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include
2025-05-07T19:44:50.9531589Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include
2025-05-07T19:44:50.9532193Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include
2025-05-07T19:44:50.9532764Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src
2025-05-07T19:44:50.9533223Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include
2025-05-07T19:44:50.9533693Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include
2025-05-07T19:44:50.9534209Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include
2025-05-07T19:44:50.9534752Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include
2025-05-07T19:44:50.9535253Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include
2025-05-07T19:44:50.9535577Z  
2025-05-07T19:44:50.9535721Z Selected Source Files:
2025-05-07T19:44:50.9536088Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/src/example_nccl.cpp
2025-05-07T19:44:50.9536871Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/src/example_ops.cpp
2025-05-07T19:44:50.9537486Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/src/cutlass_sgemm_nn.cu
2025-05-07T19:44:50.9537892Z  
2025-05-07T19:44:50.9538035Z HIPified Source Files:
2025-05-07T19:44:50.9538159Z 
2025-05-07T19:44:50.9538211Z  
2025-05-07T19:44:50.9538356Z Library Dependencies:
2025-05-07T19:44:50.9538530Z torch
2025-05-07T19:44:50.9538668Z torch_library
2025-05-07T19:44:50.9539005Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so
2025-05-07T19:44:50.9539414Z /usr/local/cuda-12.8/lib64/libnvrtc.so
2025-05-07T19:44:50.9539836Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so
2025-05-07T19:44:50.9540275Z /usr/local/cuda-12.8/lib64/stubs/libcuda.so
2025-05-07T19:44:50.9540629Z /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so
2025-05-07T19:44:50.9540951Z  
2025-05-07T19:44:50.9541089Z Output Library:
2025-05-07T19:44:50.9541277Z fbgemm_gpu_experimental_example_py
2025-05-07T19:44:50.9541496Z  
2025-05-07T19:44:50.9541638Z Destination Directory:
2025-05-07T19:44:50.9541766Z 
2025-05-07T19:44:50.9541857Z ================================================================================
2025-05-07T19:44:50.9542047Z 
2025-05-07T19:44:50.9542051Z 
2025-05-07T19:44:50.9542055Z 
2025-05-07T19:44:50.9542153Z ================================================================================
2025-05-07T19:44:50.9542457Z Adding to Package: fbgemm_gpu/experimental/example
2025-05-07T19:44:50.9542718Z  
2025-05-07T19:44:50.9542853Z TARGETS:
2025-05-07T19:44:50.9543023Z fbgemm_gpu_experimental_example_py
2025-05-07T19:44:50.9543238Z  
2025-05-07T19:44:50.9543369Z FILES:
2025-05-07T19:44:50.9543746Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/example/__init__.py
2025-05-07T19:44:50.9544320Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/example/utils.py
2025-05-07T19:44:50.9545095Z ================================================================================
2025-05-07T19:44:50.9545288Z 
2025-05-07T19:44:50.9545292Z 
2025-05-07T19:44:50.9545296Z 
2025-05-07T19:44:50.9545386Z ================================================================================
2025-05-07T19:44:50.9545722Z Adding to Package: fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T19:44:50.9546014Z  
2025-05-07T19:44:50.9546142Z TARGETS:
2025-05-07T19:44:50.9546230Z 
2025-05-07T19:44:50.9546450Z  
2025-05-07T19:44:50.9546584Z FILES:
2025-05-07T19:44:50.9546910Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gemm/triton_gemm/__init__.py
2025-05-07T19:44:50.9547488Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py
2025-05-07T19:44:50.9548093Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gemm/triton_gemm/grouped_gemm.py
2025-05-07T19:44:50.9548729Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gemm/triton_gemm/matmul_perf_model.py
2025-05-07T19:44:50.9549343Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gemm/triton_gemm/utils.py
2025-05-07T19:44:50.9549761Z ================================================================================
2025-05-07T19:44:50.9549952Z 
2025-05-07T19:44:50.9550033Z -- Configuring done (6.3s)
2025-05-07T19:44:50.9550249Z -- Generating done (0.0s)
2025-05-07T19:44:50.9550752Z -- Build files have been written to: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build
2025-05-07T19:44:50.9786354Z Change Dir: '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build'
2025-05-07T19:44:50.9786736Z 
2025-05-07T19:44:50.9786971Z Run Build Command(s): /__w/_temp/conda_environment_14891846315/bin/ninja -v -j 8 install
2025-05-07T19:44:51.2821113Z [1/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64func.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64func.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64func.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64func.cpp
2025-05-07T19:44:51.2825083Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64func.cpp:10:
2025-05-07T19:44:51.2826815Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.2828929Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2830780Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.2831842Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2832885Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.2835299Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2837457Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.2838400Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2839408Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.2841350Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2843159Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.2844067Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2845093Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.2847001Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2848735Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.2849577Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2850601Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.2852504Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2854303Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.2855223Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2856247Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.2858148Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2860234Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.2861146Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2862265Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.2864252Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2866051Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.2866956Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2867983Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.2869881Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2871813Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.2872734Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2873747Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.2875693Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2877482Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.2878416Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2879442Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.2881359Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.2883152Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.2884233Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.2884514Z At global scope:
2025-05-07T19:44:51.2885302Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.3120547Z [2/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instdb.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instdb.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instdb.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instdb.cpp
2025-05-07T19:44:51.3124542Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64instdb_p.h:12,
2025-05-07T19:44:51.3125238Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instdb.cpp:11:
2025-05-07T19:44:51.3126629Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.3128659Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3130491Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.3131409Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3132421Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.3134364Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3136178Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.3137251Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3138275Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.3140219Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3142397Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.3143499Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3144583Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.3146582Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3148329Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.3149163Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3150225Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.3152343Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3154169Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.3155081Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3156139Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.3158091Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3159907Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.3160822Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3161840Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.3163782Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3165591Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.3166662Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3167788Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.3169783Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3171593Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.3172513Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3173522Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.3175495Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3177314Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.3178232Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3179270Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.3181229Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3183048Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.3183968Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3184257Z At global scope:
2025-05-07T19:44:51.3184993Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.3306202Z [3/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instapi.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instapi.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instapi.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instapi.cpp
2025-05-07T19:44:51.3310515Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64instdb_p.h:12,
2025-05-07T19:44:51.3311384Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instapi.cpp:13:
2025-05-07T19:44:51.3312957Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.3314918Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3316742Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.3317657Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3318664Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.3320604Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3322412Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.3323320Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3324327Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.3326325Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3328140Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.3329042Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3330083Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.3332024Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3333946Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.3334782Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3335956Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.3338159Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3339986Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.3340900Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3341918Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.3343911Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3345719Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.3346635Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3347659Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.3349659Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3351461Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.3352496Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3353548Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.3355571Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3357375Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.3358582Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3359643Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.3361760Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3363584Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.3364507Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3365562Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.3367512Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3369324Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.3370247Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3370529Z At global scope:
2025-05-07T19:44:51.3371314Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.3412430Z [4/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64formatter.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64formatter.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64formatter.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64formatter.cpp
2025-05-07T19:44:51.3416451Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64instdb_p.h:12,
2025-05-07T19:44:51.3417164Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64formatter.cpp:13:
2025-05-07T19:44:51.3418580Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.3420598Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3423386Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.3424434Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3425467Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.3427441Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3429271Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.3430187Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3431249Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.3433430Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3435256Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.3436168Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3437384Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.3439374Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3441124Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.3442005Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3443115Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.3445076Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3446891Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.3448094Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3449311Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.3451333Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3453145Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.3454069Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3455112Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.3457061Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3458861Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.3459777Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3460821Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.3462769Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3464570Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.3465481Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3466529Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.3468499Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3470317Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.3471395Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3472613Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.3474741Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.3476568Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.3477488Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.3477781Z At global scope:
2025-05-07T19:44:51.3478558Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.4295963Z [5/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64builder.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64builder.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64builder.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64builder.cpp
2025-05-07T19:44:51.4300089Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64emitter.h:12,
2025-05-07T19:44:51.4300854Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64assembler.h:10,
2025-05-07T19:44:51.4301505Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64builder.cpp:9:
2025-05-07T19:44:51.4302922Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.4305101Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4306981Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.4307902Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4308944Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.4310943Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4313391Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.4314534Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4315673Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.4317661Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4319492Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.4320407Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4321475Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.4323447Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4325202Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.4326043Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4327060Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.4329029Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4330849Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.4331763Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4332751Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.4334720Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4336948Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.4337861Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4339163Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.4341205Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4343029Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.4343930Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4344938Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.4346907Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4348731Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.4349638Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4350647Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.4352759Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4354601Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.4355521Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4356566Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.4358540Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4360364Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.4361560Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4361843Z At global scope:
2025-05-07T19:44:51.4362725Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.4908182Z [6/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64operand.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64operand.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64operand.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64operand.cpp
2025-05-07T19:44:51.4912166Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64operand.cpp:10:
2025-05-07T19:44:51.4913466Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.4915383Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4917181Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.4918088Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4919077Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.4920971Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4922763Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.4923667Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4924617Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.4926505Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4928624Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.4929532Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4930739Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.4932746Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4934471Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.4935303Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4936295Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.4938522Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4940312Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.4941228Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4942169Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.4944078Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4945856Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.4946765Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4947780Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.4949684Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4951460Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.4952731Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4953755Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.4955830Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4957630Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.4958538Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4959530Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.4961454Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4963260Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.4964180Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4965160Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.4967075Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4968880Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.4969804Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4970097Z At global scope:
2025-05-07T19:44:51.4970880Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.4975062Z [7/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64compiler.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64compiler.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64compiler.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64compiler.cpp
2025-05-07T19:44:51.4979176Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64emitter.h:12,
2025-05-07T19:44:51.4979917Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64assembler.h:10,
2025-05-07T19:44:51.4980705Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64compiler.cpp:9:
2025-05-07T19:44:51.4981938Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.4983917Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4985748Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.4986659Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4987678Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.4989647Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4991474Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.4992531Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4993600Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.4995569Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.4997389Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.4998295Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.4999315Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.5001288Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5003286Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.5004123Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5005294Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.5007352Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5009180Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.5010092Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5011124Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.5013098Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5014918Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.5015820Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5016830Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.5018798Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5020617Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.5021525Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5022509Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.5024478Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5026286Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.5027327Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5028459Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.5030520Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5032460Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.5033383Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5034457Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.5036442Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5038501Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.5039433Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5039715Z At global scope:
2025-05-07T19:44:51.5040488Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.5553605Z [8/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64emithelper.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64emithelper.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64emithelper.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64emithelper.cpp
2025-05-07T19:44:51.5557961Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64emitter.h:12,
2025-05-07T19:44:51.5558749Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64emithelper_p.h:13,
2025-05-07T19:44:51.5559425Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64emithelper.cpp:14:
2025-05-07T19:44:51.5560776Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.5562991Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5564825Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.5565727Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5566709Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.5568685Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5570506Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.5571406Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5572455Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.5574426Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5576240Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.5577142Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5578203Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.5580182Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5582071Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.5582907Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5583975Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.5585951Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5587926Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.5588840Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5589866Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.5591973Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5593809Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.5594720Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5595783Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.5597758Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5599579Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.5600486Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5601546Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.5603523Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5605346Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.5606396Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5607446Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.5609421Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5611371Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.5612291Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5613329Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.5615323Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.5617151Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.5618063Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.5618350Z At global scope:
2025-05-07T19:44:51.5619122Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.6918665Z [9/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/archtraits.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/archtraits.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/archtraits.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/archtraits.cpp
2025-05-07T19:44:51.6922687Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/a64archtraits_p.h:13,
2025-05-07T19:44:51.6923414Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/archtraits.cpp:16:
2025-05-07T19:44:51.6925135Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.6927099Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6929121Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.6930042Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.6931091Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.6933050Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6934866Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.6935797Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.6937035Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.6939085Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6940904Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.6941809Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.6942825Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.6944777Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6946515Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.6947339Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.6948307Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.6950608Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6952728Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.6953653Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.6954673Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.6956616Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6958442Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.6976889Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.6978211Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.6980196Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6982068Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.6982986Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.6984001Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.6985955Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6987778Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.6988692Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.6989702Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.6991788Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6993889Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.6994929Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.6995964Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.6997928Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/../arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.6999759Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.7000673Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7000971Z At global scope:
2025-05-07T19:44:51.7001694Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.7255157Z [10/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/armformatter.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/armformatter.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/armformatter.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/armformatter.cpp
2025-05-07T19:44:51.7259164Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/armformatter.cpp:12:
2025-05-07T19:44:51.7260445Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:51.7262363Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7264154Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.7265063Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7266019Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:51.7267910Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7270022Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.7271112Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7272244Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:51.7274224Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7276014Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.7276928Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7277866Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:51.7279788Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7281503Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:51.7282337Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7283303Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:51.7285196Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7286986Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:51.7287890Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7288846Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:51.7290734Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7292682Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:51.7293583Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7294721Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:51.7296671Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7298450Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:51.7299364Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7300318Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:51.7302256Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7304035Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:51.7304949Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7305936Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:51.7307847Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7309635Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:51.7310554Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7311537Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:51.7313633Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:51.7315420Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:51.7316469Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:51.7316755Z At global scope:
2025-05-07T19:44:51.7317527Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:51.8311881Z [11/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/assembler.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/assembler.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/assembler.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/assembler.cpp
2025-05-07T19:44:51.8373188Z [12/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codewriter.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codewriter.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codewriter.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codewriter.cpp
2025-05-07T19:44:51.9712259Z [13/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/constpool.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/constpool.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/constpool.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/constpool.cpp
2025-05-07T19:44:52.0957397Z [14/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/builder.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/builder.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/builder.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/builder.cpp
2025-05-07T19:44:52.1981976Z [15/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emithelper.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emithelper.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emithelper.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emithelper.cpp
2025-05-07T19:44:52.2404042Z [16/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/compiler.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/compiler.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/compiler.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/compiler.cpp
2025-05-07T19:44:52.3036838Z [17/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitter.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitter.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitter.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitter.cpp
2025-05-07T19:44:52.3201077Z [18/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/cpuinfo.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/cpuinfo.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/cpuinfo.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/cpuinfo.cpp
2025-05-07T19:44:52.3242829Z [19/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/errorhandler.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/errorhandler.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/errorhandler.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/errorhandler.cpp
2025-05-07T19:44:52.3353635Z [20/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/environment.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/environment.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/environment.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/environment.cpp
2025-05-07T19:44:52.3593655Z [21/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64rapass.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64rapass.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64rapass.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64rapass.cpp
2025-05-07T19:44:52.3597661Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64emitter.h:12,
2025-05-07T19:44:52.3598435Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64assembler.h:10,
2025-05-07T19:44:52.3599089Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64rapass.cpp:12:
2025-05-07T19:44:52.3600560Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:52.3602580Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3604425Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:52.3605647Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3606878Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:52.3608923Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3610755Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:52.3611674Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3612662Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:52.3614641Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3616457Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:52.3617374Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3618355Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:52.3620348Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3622102Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:52.3622946Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3623956Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:52.3625941Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3627766Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:52.3628824Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3629881Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:52.3632073Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3633903Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:52.3634810Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3635840Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:52.3638028Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3639849Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:52.3640747Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3641740Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:52.3643754Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3645567Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:52.3646471Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3647478Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:52.3649462Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3651288Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:52.3652205Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3653449Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:52.3655569Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:52.3657414Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:52.3658332Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:52.3658617Z At global scope:
2025-05-07T19:44:52.3659403Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:52.3750732Z [22/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitterutils.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitterutils.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitterutils.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitterutils.cpp
2025-05-07T19:44:52.4389515Z [23/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/globals.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/globals.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/globals.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/globals.cpp
2025-05-07T19:44:52.5179273Z [24/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codeholder.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codeholder.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codeholder.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codeholder.cpp
2025-05-07T19:44:52.5431341Z [25/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/inst.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/inst.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/inst.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/inst.cpp
2025-05-07T19:44:52.5785410Z [26/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/instdb.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/instdb.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/instdb.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/instdb.cpp
2025-05-07T19:44:52.6021805Z [27/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/func.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/func.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/func.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/func.cpp
2025-05-07T19:44:52.6418095Z [28/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/funcargscontext.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/funcargscontext.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/funcargscontext.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/funcargscontext.cpp
2025-05-07T19:44:52.6996950Z [29/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/operand.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/operand.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/operand.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/operand.cpp
2025-05-07T19:44:52.7123078Z [30/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/formatter.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/formatter.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/formatter.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/formatter.cpp
2025-05-07T19:44:52.7169523Z [31/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/osutils.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/osutils.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/osutils.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/osutils.cpp
2025-05-07T19:44:52.7401332Z [32/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/logger.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/logger.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/logger.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/logger.cpp
2025-05-07T19:44:52.7408850Z [33/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitruntime.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitruntime.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitruntime.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitruntime.cpp
2025-05-07T19:44:52.8379527Z [34/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/support.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/support.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/support.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/support.cpp
2025-05-07T19:44:52.9216336Z [35/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/target.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/target.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/target.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/target.cpp
2025-05-07T19:44:52.9265757Z [36/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/string.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/string.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/string.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/string.cpp
2025-05-07T19:44:52.9302054Z [37/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitallocator.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitallocator.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitallocator.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitallocator.cpp
2025-05-07T19:44:52.9864380Z [38/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rastack.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rastack.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rastack.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rastack.cpp
2025-05-07T19:44:53.0068302Z [39/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/type.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/type.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/type.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/type.cpp
2025-05-07T19:44:53.0639665Z [40/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64assembler.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64assembler.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64assembler.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64assembler.cpp
2025-05-07T19:44:53.0643708Z In file included from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/a64emitter.h:12,
2025-05-07T19:44:53.0644465Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/a64assembler.h:10,
2025-05-07T19:44:53.0645125Z                  from /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64assembler.cpp:18:
2025-05-07T19:44:53.0646627Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB8() const’:
2025-05-07T19:44:53.0649006Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:132:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0651043Z   132 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementB); }
2025-05-07T19:44:53.0651973Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0653041Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH4() const’:
2025-05-07T19:44:53.0655024Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:133:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0656867Z   133 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementH); }
2025-05-07T19:44:53.0657779Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0658780Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS2() const’:
2025-05-07T19:44:53.0660792Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:134:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0662627Z   134 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature | kSignatureElementS); }
2025-05-07T19:44:53.0663537Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0664521Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD1() const’:
2025-05-07T19:44:53.0666500Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:135:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0668255Z   135 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD1() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecD>::kSignature); }
2025-05-07T19:44:53.0669090Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0670094Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB16() const’:
2025-05-07T19:44:53.0672204Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:137:112: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0674232Z   137 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB16() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB); }
2025-05-07T19:44:53.0675252Z       |                                                                                             ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0676308Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH8() const’:
2025-05-07T19:44:53.0678286Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:138:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0680122Z   138 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH8() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH); }
2025-05-07T19:44:53.0681028Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0682029Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecS4() const’:
2025-05-07T19:44:53.0684004Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:139:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0685825Z   139 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecS4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementS); }
2025-05-07T19:44:53.0686731Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0687721Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecD2() const’:
2025-05-07T19:44:53.0689695Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:140:111: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0691523Z   140 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecD2() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementD); }
2025-05-07T19:44:53.0692428Z       |                                                                                            ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0693462Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecB4x4() const’:
2025-05-07T19:44:53.0695443Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:141:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0697388Z   141 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecB4x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementB4); }
2025-05-07T19:44:53.0698304Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0699496Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h: In member function ‘constexpr bool asmjit::_abi_1_13::a64::Vec::isVecH2x4() const’:
2025-05-07T19:44:53.0701567Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/../arm/../arm/../arm/a64operand.h:142:113: warning: bitwise operation between different enumeration types ‘asmjit::_abi_1_13::BaseReg::<unnamed enum>’ and ‘asmjit::_abi_1_13::arm::BaseVec::AdditionalBits’ is deprecated [-Wdeprecated-enum-enum-conversion]
2025-05-07T19:44:53.0703400Z   142 |   ASMJIT_INLINE_NODEBUG constexpr bool isVecH2x4() const noexcept { return _signature.subset(kBaseSignatureMask | kSignatureRegElementTypeMask) == (RegTraits<RegType::kARM_VecV>::kSignature | kSignatureElementH2); }
2025-05-07T19:44:53.0704316Z       |                                                                                              ~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:44:53.0704601Z At global scope:
2025-05-07T19:44:53.0705314Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:44:53.0709538Z [41/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonehash.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonehash.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonehash.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonehash.cpp
2025-05-07T19:44:53.0874850Z [42/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonelist.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonelist.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonelist.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonelist.cpp
2025-05-07T19:44:53.0982289Z [43/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zone.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zone.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zone.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zone.cpp
2025-05-07T19:44:53.1279244Z [44/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonestack.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonestack.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonestack.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonestack.cpp
2025-05-07T19:44:53.1688308Z [45/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonetree.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonetree.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonetree.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonetree.cpp
2025-05-07T19:44:53.2488432Z [46/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonevector.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonevector.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonevector.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonevector.cpp
2025-05-07T19:44:53.4358808Z [47/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/ralocal.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/ralocal.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/ralocal.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/ralocal.cpp
2025-05-07T19:44:53.4646370Z [48/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/virtmem.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/virtmem.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/virtmem.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/virtmem.cpp
2025-05-07T19:44:53.7394007Z [49/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86formatter.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86formatter.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86formatter.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86formatter.cpp
2025-05-07T19:44:54.0524774Z [50/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rapass.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rapass.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rapass.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rapass.cpp
2025-05-07T19:44:54.2411739Z [51/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instapi.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instapi.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instapi.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instapi.cpp
2025-05-07T19:44:54.2865553Z [52/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86operand.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86operand.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86operand.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86operand.cpp
2025-05-07T19:44:54.2890929Z [53/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instdb.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instdb.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instdb.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instdb.cpp
2025-05-07T19:44:54.8795863Z [54/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86emithelper.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86emithelper.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86emithelper.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86emithelper.cpp
2025-05-07T19:44:54.9399729Z [55/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86builder.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86builder.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86builder.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86builder.cpp
2025-05-07T19:44:54.9929145Z [56/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86compiler.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86compiler.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86compiler.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86compiler.cpp
2025-05-07T19:44:55.1834472Z [57/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86func.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86func.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86func.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86func.cpp
2025-05-07T19:44:56.4552535Z [58/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/QuantUtils.cc.o -MF CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/QuantUtils.cc.o.d -o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/QuantUtils.cc.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/QuantUtils.cc
2025-05-07T19:44:56.7327327Z [59/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86assembler.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86assembler.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86assembler.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86assembler.cpp
2025-05-07T19:44:57.0723428Z [60/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dasmjit_EXPORTS -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86rapass.cpp.o -MF CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86rapass.cpp.o.d -o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86rapass.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86rapass.cpp
2025-05-07T19:44:57.3987702Z [61/153] : && /opt/rh/gcc-toolset-11/root/usr/bin/c++ -fPIC -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG  -s -shared -Wl,-soname,asmjit.so -o asmjit.so CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64assembler.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64builder.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64compiler.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64emithelper.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64formatter.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64func.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instapi.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64instdb.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64operand.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/a64rapass.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/arm/armformatter.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/archtraits.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/assembler.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/builder.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codeholder.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/codewriter.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/compiler.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/constpool.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/cpuinfo.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emithelper.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitter.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/emitterutils.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/environment.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/errorhandler.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/formatter.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/func.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/funcargscontext.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/globals.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/inst.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/instdb.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitallocator.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/jitruntime.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/logger.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/operand.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/osutils.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/ralocal.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rapass.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/rastack.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/string.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/support.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/target.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/type.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/virtmem.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zone.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonehash.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonelist.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonestack.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonetree.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/core/zonevector.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86assembler.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86builder.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86compiler.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86emithelper.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86formatter.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86func.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instapi.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86instdb.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86operand.cpp.o CMakeFiles/asmjit.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/external/asmjit/src/asmjit/x86/x86rapass.cpp.o  -Wl,-rpath,/usr/local/cuda-12.8/lib64:/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib:/usr/local/cuda-12.8/lib64/stubs:/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs:  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so  /usr/local/cuda-12.8/lib64/libnvrtc.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so  /usr/local/cuda-12.8/lib64/stubs/libcuda.so  /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch_cpu.so" -Wl,--as-needed  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so" -Wl,--as-needed  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so  /usr/local/cuda-12.8/lib64/libcudart.so  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch.so" -Wl,--as-needed && :
2025-05-07T19:44:57.4056792Z [62/153] cd /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build && bash /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../.github/scripts/fbgemm_gpu_postbuild.bash /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so
2025-05-07T19:44:57.4057990Z ################################################################################
2025-05-07T19:44:57.4058265Z [CMAKE] Running post-build script ...
2025-05-07T19:44:57.4058748Z Target file: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so
2025-05-07T19:44:57.4059223Z Removing all RPATHs ...
2025-05-07T19:44:57.4059457Z ################################################################################
2025-05-07T19:44:58.8684079Z [63/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMNBit.cc.o -MF CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMNBit.cc.o.d -o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMNBit.cc.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMNBit.cc
2025-05-07T19:44:59.4788543Z [64/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/Utils.cc.o -MF CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/Utils.cc.o.d -o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/Utils.cc.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/Utils.cc
2025-05-07T19:45:00.0436300Z [65/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDM.cc.o -MF CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDM.cc.o.d -o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDM.cc.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDM.cc
2025-05-07T19:45:01.1141394Z [66/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/SparseAdagrad.cc.o -MF CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/SparseAdagrad.cc.o.d -o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/SparseAdagrad.cc.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/SparseAdagrad.cc
2025-05-07T19:45:02.4543853Z [67/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RefImplementations.cc.o -MF CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RefImplementations.cc.o.d -o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RefImplementations.cc.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RefImplementations.cc
2025-05-07T19:45:05.3015512Z [68/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RowWiseSparseAdagradFused.cc.o -MF CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RowWiseSparseAdagradFused.cc.o.d -o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RowWiseSparseAdagradFused.cc.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RowWiseSparseAdagradFused.cc
2025-05-07T19:45:05.3764848Z [69/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMAutovec.cc.o -MF CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMAutovec.cc.o.d -o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMAutovec.cc.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMAutovec.cc
2025-05-07T19:45:05.7888058Z [70/153] : && /opt/rh/gcc-toolset-11/root/usr/bin/c++ -fPIC -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG  -s -shared -Wl,-soname,fbgemm.so -o fbgemm.so CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDM.cc.o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMAutovec.cc.o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/EmbeddingSpMDMNBit.cc.o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/QuantUtils.cc.o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RefImplementations.cc.o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/RowWiseSparseAdagradFused.cc.o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/SparseAdagrad.cc.o CMakeFiles/fbgemm.dir/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/src/Utils.cc.o  -Wl,-rpath,"\$ORIGIN"  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so  /usr/local/cuda-12.8/lib64/libnvrtc.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so  /usr/local/cuda-12.8/lib64/stubs/libcuda.so  asmjit.so  /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch.so" -Wl,--as-needed  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch.so  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch_cpu.so" -Wl,--as-needed  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so" -Wl,--as-needed  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so  /usr/local/cuda-12.8/lib64/libcudart.so && :
2025-05-07T19:45:05.7979848Z [71/153] cd /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build && bash /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../.github/scripts/fbgemm_gpu_postbuild.bash /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so 1
2025-05-07T19:45:05.7981048Z ################################################################################
2025-05-07T19:45:05.7981328Z [CMAKE] Running post-build script ...
2025-05-07T19:45:05.7981811Z Target file: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so
2025-05-07T19:45:05.7982298Z Resetting RPATH to $ORIGIN ...
2025-05-07T19:45:05.7982599Z  0x000000000000000f (RPATH)              Library rpath: [$ORIGIN]
2025-05-07T19:45:05.7983324Z ################################################################################
2025-05-07T19:45:07.7785187Z [72/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -fopenmp -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/attention/attention.cpp.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/attention/attention.cpp.o.d -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/attention/attention.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/attention/attention.cpp
2025-05-07T19:45:09.3856945Z [73/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -fopenmp -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/coalesce/coalesce.cpp.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/coalesce/coalesce.cpp.o.d -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/coalesce/coalesce.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/coalesce/coalesce.cpp
2025-05-07T19:45:10.7794636Z [74/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -fopenmp -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/gather_scatter/gather_scatter.cpp.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/gather_scatter/gather_scatter.cpp.o.d -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/gather_scatter/gather_scatter.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cpp
2025-05-07T19:45:12.2034683Z [75/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -fopenmp -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/moe/index_shuffling.cpp.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/moe/index_shuffling.cpp.o.d -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/moe/index_shuffling.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/moe/index_shuffling.cpp
2025-05-07T19:45:13.5060617Z [76/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -fopenmp -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/quantize.cpp.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/quantize.cpp.o.d -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/quantize.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cpp
2025-05-07T19:45:13.8366634Z [77/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -fopenmp -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/comm/car.cpp.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/comm/car.cpp.o.d -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/comm/car.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/comm/car.cpp
2025-05-07T19:45:17.6458563Z [78/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -fopenmp -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/kv_cache/kv_cache.cpp.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/kv_cache/kv_cache.cpp.o.d -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/kv_cache/kv_cache.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cpp
2025-05-07T19:46:29.4967561Z [79/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/coalesce/coalesce.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/coalesce/coalesce.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/coalesce/coalesce.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/coalesce/coalesce.cu.o
2025-05-07T19:46:29.4977141Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:46:44.0938921Z [80/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/attention/gqa_attn_splitk.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/attention/gqa_attn_splitk.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/attention/gqa_attn_splitk.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/attention/gqa_attn_splitk.cu.o
2025-05-07T19:46:44.0948896Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:47:04.7303647Z [81/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/gather_scatter/gather_scatter.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/gather_scatter/gather_scatter.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/gather_scatter/gather_scatter.cu.o
2025-05-07T19:47:04.7313647Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:47:04.7315062Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(202): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int64_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7315955Z     static auto dtype() {
2025-05-07T19:47:04.7316142Z                 ^
2025-05-07T19:47:04.7316249Z 
2025-05-07T19:47:04.7316455Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:04.7316757Z 
2025-05-07T19:47:04.7317487Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(195): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int32_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7318371Z     static auto dtype() {
2025-05-07T19:47:04.7318567Z                 ^
2025-05-07T19:47:04.7318670Z 
2025-05-07T19:47:04.7319436Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(188): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<cutlass::bfloat16_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7320364Z     static auto dtype() {
2025-05-07T19:47:04.7320553Z                 ^
2025-05-07T19:47:04.7320658Z 
2025-05-07T19:47:04.7321389Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(202): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int64_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7322269Z     static auto dtype() {
2025-05-07T19:47:04.7322454Z                 ^
2025-05-07T19:47:04.7322561Z 
2025-05-07T19:47:04.7322762Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:04.7323061Z 
2025-05-07T19:47:04.7323825Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(195): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int32_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7324713Z     static auto dtype() {
2025-05-07T19:47:04.7324908Z                 ^
2025-05-07T19:47:04.7325009Z 
2025-05-07T19:47:04.7325773Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(188): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<cutlass::bfloat16_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7326688Z     static auto dtype() {
2025-05-07T19:47:04.7326875Z                 ^
2025-05-07T19:47:04.7326978Z 
2025-05-07T19:47:04.7327689Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(202): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int64_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7328569Z     static auto dtype() {
2025-05-07T19:47:04.7328945Z                 ^
2025-05-07T19:47:04.7329050Z 
2025-05-07T19:47:04.7329251Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:04.7329555Z 
2025-05-07T19:47:04.7330270Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(195): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int32_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7331137Z     static auto dtype() {
2025-05-07T19:47:04.7331439Z                 ^
2025-05-07T19:47:04.7331548Z 
2025-05-07T19:47:04.7332307Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(188): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<cutlass::bfloat16_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7333220Z     static auto dtype() {
2025-05-07T19:47:04.7333405Z                 ^
2025-05-07T19:47:04.7333506Z 
2025-05-07T19:47:04.7334227Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(202): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int64_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7335101Z     static auto dtype() {
2025-05-07T19:47:04.7335287Z                 ^
2025-05-07T19:47:04.7335386Z 
2025-05-07T19:47:04.7335588Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:04.7335890Z 
2025-05-07T19:47:04.7336795Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(195): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int32_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7337691Z     static auto dtype() {
2025-05-07T19:47:04.7337880Z                 ^
2025-05-07T19:47:04.7337982Z 
2025-05-07T19:47:04.7338746Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(188): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<cutlass::bfloat16_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7339665Z     static auto dtype() {
2025-05-07T19:47:04.7339857Z                 ^
2025-05-07T19:47:04.7339958Z 
2025-05-07T19:47:04.7340669Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(202): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int64_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7341546Z     static auto dtype() {
2025-05-07T19:47:04.7341735Z                 ^
2025-05-07T19:47:04.7341838Z 
2025-05-07T19:47:04.7342039Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:04.7342340Z 
2025-05-07T19:47:04.7343053Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(195): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int32_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7343932Z     static auto dtype() {
2025-05-07T19:47:04.7344119Z                 ^
2025-05-07T19:47:04.7344220Z 
2025-05-07T19:47:04.7344976Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(188): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<cutlass::bfloat16_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7345888Z     static auto dtype() {
2025-05-07T19:47:04.7346079Z                 ^
2025-05-07T19:47:04.7346178Z 
2025-05-07T19:47:04.7346904Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(202): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int64_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7347774Z     static auto dtype() {
2025-05-07T19:47:04.7347961Z                 ^
2025-05-07T19:47:04.7348062Z 
2025-05-07T19:47:04.7348263Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:04.7348864Z 
2025-05-07T19:47:04.7349584Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(195): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<int32_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7350459Z     static auto dtype() {
2025-05-07T19:47:04.7350643Z                 ^
2025-05-07T19:47:04.7350744Z 
2025-05-07T19:47:04.7351774Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/gather_scatter/gather_scatter.cu(188): warning #177-D: function "fbgemm_gpu::<unnamed>::TorchDTypeTrait<cutlass::bfloat16_t>::dtype" was declared but never referenced
2025-05-07T19:47:04.7352693Z     static auto dtype() {
2025-05-07T19:47:04.7352881Z                 ^
2025-05-07T19:47:04.7352983Z 
2025-05-07T19:47:38.8061757Z [82/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/moe/index_shuffling.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/moe/index_shuffling.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/moe/index_shuffling.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/moe/index_shuffling.cu.o
2025-05-07T19:47:38.8071369Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:47:56.4697173Z [83/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/quantize.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/quantize.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/quantize.cu.o
2025-05-07T19:47:56.4706975Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:47:56.4708197Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(1629): warning #2361-D: invalid narrowing conversion from "char" to "signed char"
2025-05-07T19:47:56.4709015Z     at::cuda::CUDAGuard device_guard{(char)input.get_device()};
2025-05-07T19:47:56.4709315Z                                      ^
2025-05-07T19:47:56.4709475Z 
2025-05-07T19:47:56.4709684Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:56.4709983Z 
2025-05-07T19:47:56.4710538Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(1629): warning #2361-D: invalid narrowing conversion from "char" to "signed char"
2025-05-07T19:47:56.4711328Z     at::cuda::CUDAGuard device_guard{(char)input.get_device()};
2025-05-07T19:47:56.4711631Z                                      ^
2025-05-07T19:47:56.4711898Z 
2025-05-07T19:47:56.4712112Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:56.4712421Z 
2025-05-07T19:47:56.4713039Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(147): warning #177-D: variable "fbgemm_gpu::CVT_FP4_ELTS_PER_THREAD" was declared but never referenced
2025-05-07T19:47:56.4713848Z   constexpr int CVT_FP4_ELTS_PER_THREAD = 8;
2025-05-07T19:47:56.4714090Z                 ^
2025-05-07T19:47:56.4714193Z 
2025-05-07T19:47:56.4714801Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(148): warning #177-D: variable "fbgemm_gpu::CVT_FP4_SF_VEC_SIZE" was declared but never referenced
2025-05-07T19:47:56.4715577Z   constexpr int CVT_FP4_SF_VEC_SIZE = 16;
2025-05-07T19:47:56.4715815Z                 ^
2025-05-07T19:47:56.4715918Z 
2025-05-07T19:47:56.4716477Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(1629): warning #2361-D: invalid narrowing conversion from "char" to "signed char"
2025-05-07T19:47:56.4717426Z     at::cuda::CUDAGuard device_guard{(char)input.get_device()};
2025-05-07T19:47:56.4717767Z                                      ^
2025-05-07T19:47:56.4717922Z 
2025-05-07T19:47:56.4718125Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:56.4718426Z 
2025-05-07T19:47:56.4719147Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(147): warning #177-D: variable "fbgemm_gpu::CVT_FP4_ELTS_PER_THREAD" was declared but never referenced
2025-05-07T19:47:56.4719949Z   constexpr int CVT_FP4_ELTS_PER_THREAD = 8;
2025-05-07T19:47:56.4720189Z                 ^
2025-05-07T19:47:56.4720295Z 
2025-05-07T19:47:56.4720889Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(148): warning #177-D: variable "fbgemm_gpu::CVT_FP4_SF_VEC_SIZE" was declared but never referenced
2025-05-07T19:47:56.4721663Z   constexpr int CVT_FP4_SF_VEC_SIZE = 16;
2025-05-07T19:47:56.4721899Z                 ^
2025-05-07T19:47:56.4722000Z 
2025-05-07T19:47:56.4722556Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(1629): warning #2361-D: invalid narrowing conversion from "char" to "signed char"
2025-05-07T19:47:56.4723337Z     at::cuda::CUDAGuard device_guard{(char)input.get_device()};
2025-05-07T19:47:56.4723636Z                                      ^
2025-05-07T19:47:56.4723789Z 
2025-05-07T19:47:56.4723992Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:56.4724297Z 
2025-05-07T19:47:56.4724912Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(147): warning #177-D: variable "fbgemm_gpu::CVT_FP4_ELTS_PER_THREAD" was declared but never referenced
2025-05-07T19:47:56.4725705Z   constexpr int CVT_FP4_ELTS_PER_THREAD = 8;
2025-05-07T19:47:56.4725943Z                 ^
2025-05-07T19:47:56.4726049Z 
2025-05-07T19:47:56.4726642Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(148): warning #177-D: variable "fbgemm_gpu::CVT_FP4_SF_VEC_SIZE" was declared but never referenced
2025-05-07T19:47:56.4727417Z   constexpr int CVT_FP4_SF_VEC_SIZE = 16;
2025-05-07T19:47:56.4727647Z                 ^
2025-05-07T19:47:56.4727749Z 
2025-05-07T19:47:56.4728308Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(1629): warning #2361-D: invalid narrowing conversion from "char" to "signed char"
2025-05-07T19:47:56.4729090Z     at::cuda::CUDAGuard device_guard{(char)input.get_device()};
2025-05-07T19:47:56.4729388Z                                      ^
2025-05-07T19:47:56.4729542Z 
2025-05-07T19:47:56.4729747Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:56.4730045Z 
2025-05-07T19:47:56.4730659Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(147): warning #177-D: variable "fbgemm_gpu::CVT_FP4_ELTS_PER_THREAD" was declared but never referenced
2025-05-07T19:47:56.4731464Z   constexpr int CVT_FP4_ELTS_PER_THREAD = 8;
2025-05-07T19:47:56.4731704Z                 ^
2025-05-07T19:47:56.4731811Z 
2025-05-07T19:47:56.4732406Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(148): warning #177-D: variable "fbgemm_gpu::CVT_FP4_SF_VEC_SIZE" was declared but never referenced
2025-05-07T19:47:56.4733181Z   constexpr int CVT_FP4_SF_VEC_SIZE = 16;
2025-05-07T19:47:56.4733417Z                 ^
2025-05-07T19:47:56.4733520Z 
2025-05-07T19:47:56.4734089Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(1629): warning #2361-D: invalid narrowing conversion from "char" to "signed char"
2025-05-07T19:47:56.4734873Z     at::cuda::CUDAGuard device_guard{(char)input.get_device()};
2025-05-07T19:47:56.4735176Z                                      ^
2025-05-07T19:47:56.4735330Z 
2025-05-07T19:47:56.4735535Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:56.4736033Z 
2025-05-07T19:47:56.4736842Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu(1629): warning #2361-D: invalid narrowing conversion from "char" to "signed char"
2025-05-07T19:47:56.4737771Z     at::cuda::CUDAGuard device_guard{(char)input.get_device()};
2025-05-07T19:47:56.4738067Z                                      ^
2025-05-07T19:47:56.4738227Z 
2025-05-07T19:47:56.4738428Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:47:56.4738991Z 
2025-05-07T19:47:56.4739493Z ptxas warning : Value of threads per SM for entry _ZN10fbgemm_gpu15cvt_fp16_to_fp4I13__nv_bfloat16Lb0EEEviiPKT_PKfPjS7_ is out of range. .minnctapersm will be ignored
2025-05-07T19:47:56.4740557Z ptxas warning : Value of threads per SM for entry _ZN10fbgemm_gpu15cvt_fp16_to_fp4I13__nv_bfloat16Lb1EEEviiPKT_PKfPjS7_ is out of range. .minnctapersm will be ignored
2025-05-07T19:47:56.4741584Z ptxas warning : Value of threads per SM for entry _ZN10fbgemm_gpu15cvt_fp16_to_fp4I6__halfLb0EEEviiPKT_PKfPjS7_ is out of range. .minnctapersm will be ignored
2025-05-07T19:47:56.4742593Z ptxas warning : Value of threads per SM for entry _ZN10fbgemm_gpu15cvt_fp16_to_fp4I6__halfLb1EEEviiPKT_PKfPjS7_ is out of range. .minnctapersm will be ignored
2025-05-07T19:47:56.4744361Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu: In function ‘void fbgemm_gpu::scaled_fp4_quant(const at::Tensor&, const at::Tensor&, const at::Tensor&, const at::Tensor&)’:
2025-05-07T19:47:56.4746256Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/quantize.cu:1629:35: warning: narrowing conversion of ‘(char)(& input)->at::Tensor::<anonymous>.at::TensorBase::get_device()’ from ‘char’ to ‘c10::DeviceIndex’ {aka ‘signed char’} [-Wnarrowing]
2025-05-07T19:47:56.4747368Z  1629 |   at::cuda::CUDAGuard device_guard{(char)input.get_device()};
2025-05-07T19:47:56.4747698Z       |                                   ^~~~~~~~~~~~~~~~~~~~~~~~
2025-05-07T19:47:56.4747961Z At global scope:
2025-05-07T19:47:56.4748715Z cc1plus: note: unrecognized command-line option ‘-Wno-deprecated-anon-enum-enum-conversion’ may have been intended to silence earlier diagnostics
2025-05-07T19:47:56.6501797Z [84/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/comm/car.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/comm/car.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/comm/car.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/comm/car.cu.o
2025-05-07T19:47:56.6511387Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:48:10.4279491Z [85/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/kv_cache/kv_cache.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/kv_cache/kv_cache.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/kv_cache/kv_cache.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/kv_cache/kv_cache.cu.o
2025-05-07T19:48:10.4288987Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:48:45.6097741Z [86/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16.cu.o
2025-05-07T19:48:45.6107769Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:48:58.8085655Z [87/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu.o
2025-05-07T19:48:58.8096082Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:48:58.8097477Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:48:58.8098528Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:48:58.8098890Z                             ^
2025-05-07T19:48:58.8099034Z 
2025-05-07T19:48:58.8099237Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:48:58.8099537Z 
2025-05-07T19:48:58.8100307Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:48:58.8101345Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:48:58.8101708Z                             ^
2025-05-07T19:48:58.8101842Z 
2025-05-07T19:50:22.4743885Z [88/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16_rowwise_batched.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16_rowwise_batched.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16i4bf16_rowwise_batched.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16_rowwise_batched.cu.o
2025-05-07T19:50:22.4754752Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:50:22.4756152Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:50:22.4757188Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:50:22.4757551Z                             ^
2025-05-07T19:50:22.4757694Z 
2025-05-07T19:50:22.4757902Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:50:22.4758205Z 
2025-05-07T19:50:22.4758967Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:50:22.4760012Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:50:22.4760373Z                             ^
2025-05-07T19:50:22.4760507Z 
2025-05-07T19:52:51.1187957Z [89/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16_shuffled_grouped.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16_shuffled_grouped.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16i4bf16_shuffled_grouped.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16_shuffled_grouped.cu.o
2025-05-07T19:52:51.1216571Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:52:51.1234089Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:52:51.1235190Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:52:51.1235556Z                             ^
2025-05-07T19:52:51.1235697Z 
2025-05-07T19:52:51.1235903Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:52:51.1236214Z 
2025-05-07T19:52:51.1238692Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:52:51.1239760Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:52:51.1240120Z                             ^
2025-05-07T19:52:51.1240256Z 
2025-05-07T19:53:08.7098831Z [90/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu.o
2025-05-07T19:53:08.7109500Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:53:08.7110894Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7112199Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7112579Z                             ^
2025-05-07T19:53:08.7112718Z 
2025-05-07T19:53:08.7112921Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:08.7113227Z 
2025-05-07T19:53:08.7113985Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7115036Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:53:08.7115389Z                             ^
2025-05-07T19:53:08.7115530Z 
2025-05-07T19:53:08.7116265Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7117295Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7117650Z                             ^
2025-05-07T19:53:08.7117852Z           detected during:
2025-05-07T19:53:08.7130838Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.7155804Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.7180838Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.7195121Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.7196183Z 
2025-05-07T19:53:08.7196390Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:08.7196695Z 
2025-05-07T19:53:08.7197434Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7198520Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7198844Z                  ^
2025-05-07T19:53:08.7199020Z           detected during:
2025-05-07T19:53:08.7211077Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:08.7236008Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.7260833Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.7285878Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.7300053Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.7301110Z 
2025-05-07T19:53:08.7301850Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7302883Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7303244Z                             ^
2025-05-07T19:53:08.7303448Z           detected during:
2025-05-07T19:53:08.7316401Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.7341177Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.7366264Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.7380609Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.7381662Z 
2025-05-07T19:53:08.7381864Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:08.7382163Z 
2025-05-07T19:53:08.7382903Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7383905Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7384231Z                  ^
2025-05-07T19:53:08.7384396Z           detected during:
2025-05-07T19:53:08.7396530Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:08.7421338Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.7446168Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.7471296Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.7485538Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.7486590Z 
2025-05-07T19:53:08.7503483Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7504610Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7505003Z                             ^
2025-05-07T19:53:08.7505204Z           detected during:
2025-05-07T19:53:08.7518315Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.7543100Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.7568165Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.7582318Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.7583370Z 
2025-05-07T19:53:08.7583578Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:08.7583876Z 
2025-05-07T19:53:08.7584617Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7585623Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7585949Z                  ^
2025-05-07T19:53:08.7586123Z           detected during:
2025-05-07T19:53:08.7598217Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:08.7622917Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.7647682Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.7672673Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.7686869Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.7688003Z 
2025-05-07T19:53:08.7689053Z ptxas /tmp/tmpxft_00000d98_00000000-9_f4f4bf16_128_128_4_1_1_t.compute_90.ptx, line 925; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:53:08.7691286Z ptxas /tmp/tmpxft_00000d98_00000000-9_f4f4bf16_128_128_4_1_1_t.compute_90.ptx, line 937; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:53:08.7693466Z ptxas /tmp/tmpxft_00000d98_00000000-9_f4f4bf16_128_128_4_1_1_t.compute_90.ptx, line 1076; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:53:08.7695637Z ptxas /tmp/tmpxft_00000d98_00000000-9_f4f4bf16_128_128_4_1_1_t.compute_90.ptx, line 1088; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:53:08.7697495Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7698516Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7698871Z                             ^
2025-05-07T19:53:08.7699075Z           detected during:
2025-05-07T19:53:08.7711993Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.7736388Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.7761447Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.7775622Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.7776727Z 
2025-05-07T19:53:08.7776930Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:08.7777229Z 
2025-05-07T19:53:08.7777967Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7778965Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7779290Z                  ^
2025-05-07T19:53:08.7779545Z           detected during:
2025-05-07T19:53:08.7791590Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:08.7816473Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.7841208Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.7866068Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.7880269Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.7881315Z 
2025-05-07T19:53:08.7882057Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7883078Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7883439Z                             ^
2025-05-07T19:53:08.7883636Z           detected during:
2025-05-07T19:53:08.7896495Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.7921036Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.7946491Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.7960880Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.7961934Z 
2025-05-07T19:53:08.7962140Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:08.7962442Z 
2025-05-07T19:53:08.7963176Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.7964167Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.7964487Z                  ^
2025-05-07T19:53:08.7964659Z           detected during:
2025-05-07T19:53:08.7976650Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:08.8001416Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.8025886Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.8050948Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.8065115Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.8066156Z 
2025-05-07T19:53:08.8066895Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.8067923Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.8068281Z                             ^
2025-05-07T19:53:08.8068479Z           detected during:
2025-05-07T19:53:08.8081401Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.8105954Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.8130882Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.8145133Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.8146180Z 
2025-05-07T19:53:08.8146381Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:08.8146682Z 
2025-05-07T19:53:08.8147415Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:08.8148410Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:08.8148731Z                  ^
2025-05-07T19:53:08.8148902Z           detected during:
2025-05-07T19:53:08.8161084Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:08.8185950Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:08.8210561Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:08.8235488Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:08.8249892Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu
2025-05-07T19:53:08.8250941Z 
2025-05-07T19:53:10.7490978Z [91/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu.o
2025-05-07T19:53:10.7501172Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:53:10.7502564Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.7503590Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.7503953Z                             ^
2025-05-07T19:53:10.7504091Z 
2025-05-07T19:53:10.7504297Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:10.7504596Z 
2025-05-07T19:53:10.7505349Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.7506571Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:53:10.7506931Z                             ^
2025-05-07T19:53:10.7507064Z 
2025-05-07T19:53:10.7507792Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.7508908Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.7509271Z                             ^
2025-05-07T19:53:10.7509468Z           detected during:
2025-05-07T19:53:10.7522507Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.7547857Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.7572979Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.7587186Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.7588240Z 
2025-05-07T19:53:10.7588444Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:10.7588747Z 
2025-05-07T19:53:10.7589481Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.7590481Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.7590800Z                  ^
2025-05-07T19:53:10.7590971Z           detected during:
2025-05-07T19:53:10.7603101Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:10.7627847Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.7653033Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.7678145Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.7692323Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.7693379Z 
2025-05-07T19:53:10.7694115Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.7695140Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.7695497Z                             ^
2025-05-07T19:53:10.7695701Z           detected during:
2025-05-07T19:53:10.7708556Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.7733138Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.7758364Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.7772547Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.7773602Z 
2025-05-07T19:53:10.7773803Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:10.7774099Z 
2025-05-07T19:53:10.7774836Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.7775825Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.7776235Z                  ^
2025-05-07T19:53:10.7776407Z           detected during:
2025-05-07T19:53:10.7788431Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:10.7813358Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.7838018Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.7863009Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.7877260Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.7878320Z 
2025-05-07T19:53:10.7879053Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.7880076Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.7880433Z                             ^
2025-05-07T19:53:10.7880631Z           detected during:
2025-05-07T19:53:10.7893479Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.7918077Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.7943122Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.7957393Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.7958436Z 
2025-05-07T19:53:10.7958724Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:10.7959023Z 
2025-05-07T19:53:10.7959760Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.7960752Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.7961084Z                  ^
2025-05-07T19:53:10.7961249Z           detected during:
2025-05-07T19:53:10.7973241Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:10.7998030Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.8022493Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.8047588Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.8061796Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.8062846Z 
2025-05-07T19:53:10.8063903Z ptxas /tmp/tmpxft_00000d92_00000000-9_f4f4bf16_128_128_4_1_1_f.compute_90.ptx, line 925; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:53:10.8066071Z ptxas /tmp/tmpxft_00000d92_00000000-9_f4f4bf16_128_128_4_1_1_f.compute_90.ptx, line 937; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:53:10.8068248Z ptxas /tmp/tmpxft_00000d92_00000000-9_f4f4bf16_128_128_4_1_1_f.compute_90.ptx, line 1076; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:53:10.8070499Z ptxas /tmp/tmpxft_00000d92_00000000-9_f4f4bf16_128_128_4_1_1_f.compute_90.ptx, line 1088; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:53:10.8072543Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.8073574Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.8073934Z                             ^
2025-05-07T19:53:10.8074134Z           detected during:
2025-05-07T19:53:10.8087017Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.8111528Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.8136479Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.8158932Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.8159981Z 
2025-05-07T19:53:10.8160193Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:10.8160492Z 
2025-05-07T19:53:10.8161226Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.8162219Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.8162542Z                  ^
2025-05-07T19:53:10.8162708Z           detected during:
2025-05-07T19:53:10.8174826Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:10.8199562Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.8224089Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.8249293Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.8263472Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.8264517Z 
2025-05-07T19:53:10.8265259Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.8266278Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.8266635Z                             ^
2025-05-07T19:53:10.8266831Z           detected during:
2025-05-07T19:53:10.8279771Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.8304441Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.8329464Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.8346407Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.8347467Z 
2025-05-07T19:53:10.8347672Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:10.8348169Z 
2025-05-07T19:53:10.8348908Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.8349934Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.8350257Z                  ^
2025-05-07T19:53:10.8350427Z           detected during:
2025-05-07T19:53:10.8362592Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:10.8387354Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.8411884Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.8436972Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.8451143Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.8452206Z 
2025-05-07T19:53:10.8452946Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.8453971Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.8454326Z                             ^
2025-05-07T19:53:10.8454528Z           detected during:
2025-05-07T19:53:10.8467373Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.8491923Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.8516828Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.8531072Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.8532132Z 
2025-05-07T19:53:10.8532335Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:53:10.8532632Z 
2025-05-07T19:53:10.8533369Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:53:10.8534367Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:53:10.8534691Z                  ^
2025-05-07T19:53:10.8534862Z           detected during:
2025-05-07T19:53:10.8547067Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=10, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:53:10.8571924Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:53:10.8596503Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:53:10.8621410Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:53:10.8635615Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=128, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu
2025-05-07T19:53:10.8636765Z 
2025-05-07T19:54:41.6439768Z [92/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu.o
2025-05-07T19:54:41.6450137Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:54:41.6451534Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:41.6452564Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:54:41.6452926Z                             ^
2025-05-07T19:54:41.6453068Z 
2025-05-07T19:54:41.6453272Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:54:41.6453571Z 
2025-05-07T19:54:41.6454327Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:41.6455371Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:54:41.6455732Z                             ^
2025-05-07T19:54:41.6455864Z 
2025-05-07T19:54:41.6456598Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:41.6457612Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:54:41.6457978Z                             ^
2025-05-07T19:54:41.6458178Z           detected during:
2025-05-07T19:54:41.6471201Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:54:41.6496032Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:54:41.6521449Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:54:41.6535679Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu
2025-05-07T19:54:41.6536843Z 
2025-05-07T19:54:41.6537059Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:54:41.6537359Z 
2025-05-07T19:54:41.6538098Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:41.6539126Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:54:41.6539487Z                             ^
2025-05-07T19:54:41.6539689Z           detected during:
2025-05-07T19:54:41.6552765Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:54:41.6577488Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:54:41.6602612Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:54:41.6616846Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu
2025-05-07T19:54:41.6617982Z 
2025-05-07T19:54:41.6618182Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:54:41.6618486Z 
2025-05-07T19:54:41.6619301Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:41.6620336Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:54:41.6620697Z                             ^
2025-05-07T19:54:41.6620898Z           detected during:
2025-05-07T19:54:41.6633867Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:54:41.6658712Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:54:41.6683844Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:54:41.6698064Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu
2025-05-07T19:54:41.6699112Z 
2025-05-07T19:54:41.6699320Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:54:41.6699619Z 
2025-05-07T19:54:41.6700669Z ptxas /tmp/tmpxft_00000dc1_00000000-9_f4f4bf16_128_192_2_2_1_f.compute_90.ptx, line 889; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:54:41.6702833Z ptxas /tmp/tmpxft_00000dc1_00000000-9_f4f4bf16_128_192_2_2_1_f.compute_90.ptx, line 896; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:54:41.6704995Z ptxas /tmp/tmpxft_00000dc1_00000000-9_f4f4bf16_128_192_2_2_1_f.compute_90.ptx, line 903; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:54:41.6707247Z ptxas /tmp/tmpxft_00000dc1_00000000-9_f4f4bf16_128_192_2_2_1_f.compute_90.ptx, line 910; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:54:41.6709487Z ptxas /tmp/tmpxft_00000dc1_00000000-9_f4f4bf16_128_192_2_2_1_f.compute_90.ptx, line 1044; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:54:41.6711653Z ptxas /tmp/tmpxft_00000dc1_00000000-9_f4f4bf16_128_192_2_2_1_f.compute_90.ptx, line 1051; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:54:41.6713899Z ptxas /tmp/tmpxft_00000dc1_00000000-9_f4f4bf16_128_192_2_2_1_f.compute_90.ptx, line 1058; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:54:41.6716064Z ptxas /tmp/tmpxft_00000dc1_00000000-9_f4f4bf16_128_192_2_2_1_f.compute_90.ptx, line 1065; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:54:41.6717927Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:41.6718942Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:54:41.6719308Z                             ^
2025-05-07T19:54:41.6719506Z           detected during:
2025-05-07T19:54:41.6732447Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:54:41.6757322Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:54:41.6782369Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:54:41.6796685Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu
2025-05-07T19:54:41.6797736Z 
2025-05-07T19:54:41.6798029Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:54:41.6798349Z 
2025-05-07T19:54:41.6799085Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:41.6800112Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:54:41.6800476Z                             ^
2025-05-07T19:54:41.6800673Z           detected during:
2025-05-07T19:54:41.6813610Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:54:41.6838494Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:54:41.6863558Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:54:41.6877805Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu
2025-05-07T19:54:41.6878866Z 
2025-05-07T19:54:41.6879066Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:54:41.6879363Z 
2025-05-07T19:54:41.6880103Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:41.6881127Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:54:41.6881486Z                             ^
2025-05-07T19:54:41.6881686Z           detected during:
2025-05-07T19:54:41.6894609Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:54:41.6919451Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:54:41.6944757Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:54:41.6959047Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu
2025-05-07T19:54:41.6960092Z 
2025-05-07T19:54:41.6960295Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:54:41.6960600Z 
2025-05-07T19:54:44.3619736Z [93/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/bf16i4bf16.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16.cu.o
2025-05-07T19:54:44.3630278Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:54:44.3631687Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:44.3632827Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:54:44.3633193Z                             ^
2025-05-07T19:54:44.3633343Z 
2025-05-07T19:54:44.3633547Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:54:44.3633851Z 
2025-05-07T19:54:44.3634619Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:54:44.3635664Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:54:44.3636031Z                             ^
2025-05-07T19:54:44.3636169Z 
2025-05-07T19:55:19.1252687Z [94/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu.o
2025-05-07T19:55:19.1263275Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:55:19.1264875Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:19.1265925Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:19.1266289Z                             ^
2025-05-07T19:55:19.1266428Z 
2025-05-07T19:55:19.1266633Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:19.1266936Z 
2025-05-07T19:55:19.1267698Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:19.1268743Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:55:19.1269098Z                             ^
2025-05-07T19:55:19.1269234Z 
2025-05-07T19:55:19.1269974Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:19.1270987Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:19.1271343Z                             ^
2025-05-07T19:55:19.1271550Z           detected during:
2025-05-07T19:55:19.1284861Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:19.1309664Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:19.1334902Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:19.1349415Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu
2025-05-07T19:55:19.1350466Z 
2025-05-07T19:55:19.1350677Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:19.1351200Z 
2025-05-07T19:55:19.1352012Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:19.1353043Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:19.1353407Z                             ^
2025-05-07T19:55:19.1353606Z           detected during:
2025-05-07T19:55:19.1366739Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:19.1391389Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:19.1416535Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:19.1430810Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu
2025-05-07T19:55:19.1431921Z 
2025-05-07T19:55:19.1432128Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:19.1432433Z 
2025-05-07T19:55:19.1433173Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:19.1434196Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:19.1434559Z                             ^
2025-05-07T19:55:19.1434761Z           detected during:
2025-05-07T19:55:19.1448013Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:19.1472890Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:19.1498151Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:19.1512486Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu
2025-05-07T19:55:19.1513546Z 
2025-05-07T19:55:19.1513747Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:19.1514045Z 
2025-05-07T19:55:19.1515109Z ptxas /tmp/tmpxft_00000def_00000000-9_f4f4bf16_128_192_2_2_1_t.compute_90.ptx, line 889; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:19.1517280Z ptxas /tmp/tmpxft_00000def_00000000-9_f4f4bf16_128_192_2_2_1_t.compute_90.ptx, line 896; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:19.1519444Z ptxas /tmp/tmpxft_00000def_00000000-9_f4f4bf16_128_192_2_2_1_t.compute_90.ptx, line 903; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:19.1521601Z ptxas /tmp/tmpxft_00000def_00000000-9_f4f4bf16_128_192_2_2_1_t.compute_90.ptx, line 910; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:19.1523758Z ptxas /tmp/tmpxft_00000def_00000000-9_f4f4bf16_128_192_2_2_1_t.compute_90.ptx, line 1044; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:19.1525924Z ptxas /tmp/tmpxft_00000def_00000000-9_f4f4bf16_128_192_2_2_1_t.compute_90.ptx, line 1051; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:19.1528083Z ptxas /tmp/tmpxft_00000def_00000000-9_f4f4bf16_128_192_2_2_1_t.compute_90.ptx, line 1058; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:19.1530244Z ptxas /tmp/tmpxft_00000def_00000000-9_f4f4bf16_128_192_2_2_1_t.compute_90.ptx, line 1065; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:19.1532321Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:19.1533342Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:19.1533699Z                             ^
2025-05-07T19:55:19.1533900Z           detected during:
2025-05-07T19:55:19.1547188Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:19.1572045Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:19.1597211Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:19.1611451Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu
2025-05-07T19:55:19.1612502Z 
2025-05-07T19:55:19.1612710Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:19.1613007Z 
2025-05-07T19:55:19.1613744Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:19.1614780Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:19.1615143Z                             ^
2025-05-07T19:55:19.1615344Z           detected during:
2025-05-07T19:55:19.1628354Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:19.1653516Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:19.1678765Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:19.1693184Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu
2025-05-07T19:55:19.1694229Z 
2025-05-07T19:55:19.1694433Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:19.1694744Z 
2025-05-07T19:55:19.1695484Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:19.1696507Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:19.1696865Z                             ^
2025-05-07T19:55:19.1697075Z           detected during:
2025-05-07T19:55:19.1710030Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:19.1734828Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:19.1760185Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<7, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:19.1774507Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu
2025-05-07T19:55:19.1775639Z 
2025-05-07T19:55:19.1775840Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:19.1776139Z 
2025-05-07T19:55:30.8399385Z [95/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu.o
2025-05-07T19:55:30.8409604Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:55:30.8411009Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.8412039Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.8412405Z                             ^
2025-05-07T19:55:30.8412543Z 
2025-05-07T19:55:30.8412745Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:30.8413056Z 
2025-05-07T19:55:30.8413817Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.8414861Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:55:30.8415216Z                             ^
2025-05-07T19:55:30.8415582Z 
2025-05-07T19:55:30.8416322Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.8417347Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.8417700Z                             ^
2025-05-07T19:55:30.8417900Z           detected during:
2025-05-07T19:55:30.8430759Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.8455285Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.8480032Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.8494019Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.8495078Z 
2025-05-07T19:55:30.8495280Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:30.8495580Z 
2025-05-07T19:55:30.8496319Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.8497323Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.8497651Z                  ^
2025-05-07T19:55:30.8497822Z           detected during:
2025-05-07T19:55:30.8509852Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:55:30.8551365Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.8575862Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.8600551Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.8614609Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.8615671Z 
2025-05-07T19:55:30.8616491Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.8617535Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.8617892Z                             ^
2025-05-07T19:55:30.8618097Z           detected during:
2025-05-07T19:55:30.8630779Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.8655384Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.8680047Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.8694187Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.8695251Z 
2025-05-07T19:55:30.8695452Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:30.8695752Z 
2025-05-07T19:55:30.8696497Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.8697501Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.8697837Z                  ^
2025-05-07T19:55:30.8698004Z           detected during:
2025-05-07T19:55:30.8710074Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:55:30.8734743Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.8759185Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.8783754Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.8797913Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.8798974Z 
2025-05-07T19:55:30.8799718Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.8800753Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.8801108Z                             ^
2025-05-07T19:55:30.8801315Z           detected during:
2025-05-07T19:55:30.8813959Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.8838273Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.8862943Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.8877028Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.8878081Z 
2025-05-07T19:55:30.8878288Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:30.8878585Z 
2025-05-07T19:55:30.8879326Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.8880320Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.8880644Z                  ^
2025-05-07T19:55:30.8880815Z           detected during:
2025-05-07T19:55:30.8892854Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:55:30.8917425Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.8941792Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.8966435Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.8980381Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.8981438Z 
2025-05-07T19:55:30.8982497Z ptxas /tmp/tmpxft_00000dff_00000000-9_f4f4bf16_128_256_2_1_1_f.compute_90.ptx, line 835; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:30.8984654Z ptxas /tmp/tmpxft_00000dff_00000000-9_f4f4bf16_128_256_2_1_1_f.compute_90.ptx, line 848; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:30.8986806Z ptxas /tmp/tmpxft_00000dff_00000000-9_f4f4bf16_128_256_2_1_1_f.compute_90.ptx, line 988; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:30.8988972Z ptxas /tmp/tmpxft_00000dff_00000000-9_f4f4bf16_128_256_2_1_1_f.compute_90.ptx, line 1001; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:55:30.8990828Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.8991927Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.8992284Z                             ^
2025-05-07T19:55:30.8992483Z           detected during:
2025-05-07T19:55:30.9005158Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.9029274Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.9054070Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.9068192Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.9069256Z 
2025-05-07T19:55:30.9069462Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:30.9069769Z 
2025-05-07T19:55:30.9070507Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.9071500Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.9071914Z                  ^
2025-05-07T19:55:30.9072084Z           detected during:
2025-05-07T19:55:30.9084142Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:55:30.9108692Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.9132929Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.9157838Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.9171864Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.9172923Z 
2025-05-07T19:55:30.9173660Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.9174684Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.9175055Z                             ^
2025-05-07T19:55:30.9175260Z           detected during:
2025-05-07T19:55:30.9187930Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.9212298Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.9237190Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.9251227Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.9252279Z 
2025-05-07T19:55:30.9252487Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:30.9252785Z 
2025-05-07T19:55:30.9253524Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.9254525Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.9254856Z                  ^
2025-05-07T19:55:30.9255025Z           detected during:
2025-05-07T19:55:30.9267069Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:55:30.9291687Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.9315807Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.9340558Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.9354672Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.9355726Z 
2025-05-07T19:55:30.9356463Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.9357492Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.9357857Z                             ^
2025-05-07T19:55:30.9358142Z           detected during:
2025-05-07T19:55:30.9370824Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.9395000Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.9419447Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.9433423Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.9434468Z 
2025-05-07T19:55:30.9434669Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:55:30.9434971Z 
2025-05-07T19:55:30.9435706Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:55:30.9436885Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:55:30.9437210Z                  ^
2025-05-07T19:55:30.9437382Z           detected during:
2025-05-07T19:55:30.9449445Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:55:30.9474055Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:55:30.9498134Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:55:30.9522709Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:55:30.9536779Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu
2025-05-07T19:55:30.9537975Z 
2025-05-07T19:57:01.6892134Z [96/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu.o
2025-05-07T19:57:01.6902447Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:57:01.6903836Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.6904874Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.6905238Z                             ^
2025-05-07T19:57:01.6905373Z 
2025-05-07T19:57:01.6905575Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:57:01.6905877Z 
2025-05-07T19:57:01.6906638Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.6907684Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:57:01.6908038Z                             ^
2025-05-07T19:57:01.6908176Z 
2025-05-07T19:57:01.6908908Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.6910145Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.6910504Z                             ^
2025-05-07T19:57:01.6910709Z           detected during:
2025-05-07T19:57:01.6923651Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.6948092Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.6972808Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.6986749Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.6987797Z 
2025-05-07T19:57:01.6988008Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:57:01.6988313Z 
2025-05-07T19:57:01.6989050Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.6990048Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.6990372Z                  ^
2025-05-07T19:57:01.6990558Z           detected during:
2025-05-07T19:57:01.7002724Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:57:01.7027245Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7052733Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7077426Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7091535Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7092664Z 
2025-05-07T19:57:01.7093400Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7094497Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7094871Z                             ^
2025-05-07T19:57:01.7095076Z           detected during:
2025-05-07T19:57:01.7107714Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7131936Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7156770Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7170744Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7171798Z 
2025-05-07T19:57:01.7172000Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:57:01.7172298Z 
2025-05-07T19:57:01.7173044Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7174037Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7174368Z                  ^
2025-05-07T19:57:01.7174539Z           detected during:
2025-05-07T19:57:01.7186581Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:57:01.7211190Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7235428Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7260061Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7274250Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7275305Z 
2025-05-07T19:57:01.7276050Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7277070Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7277443Z                             ^
2025-05-07T19:57:01.7277654Z           detected during:
2025-05-07T19:57:01.7290237Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7314365Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7339026Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7353077Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7354124Z 
2025-05-07T19:57:01.7354328Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:57:01.7354624Z 
2025-05-07T19:57:01.7355358Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7356357Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7356682Z                  ^
2025-05-07T19:57:01.7356854Z           detected during:
2025-05-07T19:57:01.7368898Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:57:01.7393408Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7417498Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7444162Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7458224Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7459280Z 
2025-05-07T19:57:01.7460340Z ptxas /tmp/tmpxft_00000e2d_00000000-9_f4f4bf16_128_256_2_1_1_t.compute_90.ptx, line 835; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:57:01.7462504Z ptxas /tmp/tmpxft_00000e2d_00000000-9_f4f4bf16_128_256_2_1_1_t.compute_90.ptx, line 848; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:57:01.7464657Z ptxas /tmp/tmpxft_00000e2d_00000000-9_f4f4bf16_128_256_2_1_1_t.compute_90.ptx, line 988; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:57:01.7466824Z ptxas /tmp/tmpxft_00000e2d_00000000-9_f4f4bf16_128_256_2_1_1_t.compute_90.ptx, line 1001; warning : Advisory: '.multicast::cluster' modifier on instruction 'cp.async.bulk{.tensor}' should be used on .target 'sm_90a/sm_100a/sm_101a' instead of .target 'sm_90' as this feature is expected to have substantially reduced performance on some future architectures
2025-05-07T19:57:01.7468690Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7469710Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7470076Z                             ^
2025-05-07T19:57:01.7470283Z           detected during:
2025-05-07T19:57:01.7483122Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7507196Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7531709Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7546128Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7547184Z 
2025-05-07T19:57:01.7547392Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:57:01.7547696Z 
2025-05-07T19:57:01.7548433Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7549431Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7549761Z                  ^
2025-05-07T19:57:01.7549934Z           detected during:
2025-05-07T19:57:01.7562107Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:57:01.7586688Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7610888Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7635393Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7649514Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7650555Z 
2025-05-07T19:57:01.7651299Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7652316Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7652676Z                             ^
2025-05-07T19:57:01.7652878Z           detected during:
2025-05-07T19:57:01.7665709Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7689944Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7714575Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7728539Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7729586Z 
2025-05-07T19:57:01.7729787Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:57:01.7730085Z 
2025-05-07T19:57:01.7730820Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7731829Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7732157Z                  ^
2025-05-07T19:57:01.7732330Z           detected during:
2025-05-07T19:57:01.7744619Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:57:01.7769247Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7793332Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7817725Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7831724Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7832777Z 
2025-05-07T19:57:01.7833520Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7834546Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7834904Z                             ^
2025-05-07T19:57:01.7835108Z           detected during:
2025-05-07T19:57:01.7848023Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7872356Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.7896791Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.7910677Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.7911789Z 
2025-05-07T19:57:01.7911994Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:57:01.7912290Z 
2025-05-07T19:57:01.7913033Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:57:01.7914026Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:57:01.7914358Z                  ^
2025-05-07T19:57:01.7914530Z           detected during:
2025-05-07T19:57:01.7926568Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=4, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:57:01.7951317Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:57:01.7975513Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:57:01.8000086Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<4, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 128, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM90_TMA_LOAD, cute::SM90_TMA_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM90_TMA_LOAD_MULTICAST, cute::SM90_TMA_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:57:01.8014031Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=128, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu
2025-05-07T19:57:01.8015081Z 
2025-05-07T19:58:47.5402768Z [97/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu.o
2025-05-07T19:58:47.5413275Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:58:47.5414676Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.5415709Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.5416085Z                             ^
2025-05-07T19:58:47.5416229Z 
2025-05-07T19:58:47.5416432Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:58:47.5416739Z 
2025-05-07T19:58:47.5417497Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.5418554Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:58:47.5418914Z                             ^
2025-05-07T19:58:47.5419056Z 
2025-05-07T19:58:47.5419815Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.5420837Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.5421343Z                             ^
2025-05-07T19:58:47.5421550Z           detected during:
2025-05-07T19:58:47.5434916Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.5460053Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.5485457Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.5499762Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.5500828Z 
2025-05-07T19:58:47.5501035Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:58:47.5501339Z 
2025-05-07T19:58:47.5502073Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.5503075Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.5503402Z                  ^
2025-05-07T19:58:47.5503576Z           detected during:
2025-05-07T19:58:47.5515818Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:58:47.5540986Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.5565904Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.5591014Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.5605529Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.5606601Z 
2025-05-07T19:58:47.5607345Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.5608383Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.5608744Z                             ^
2025-05-07T19:58:47.5608947Z           detected during:
2025-05-07T19:58:47.5621932Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.5647192Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.5672427Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.5686715Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.5687777Z 
2025-05-07T19:58:47.5687981Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:58:47.5688282Z 
2025-05-07T19:58:47.5689027Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.5690026Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.5690357Z                  ^
2025-05-07T19:58:47.5690532Z           detected during:
2025-05-07T19:58:47.5702671Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:58:47.5727726Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.5752901Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.5778101Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.5792492Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.5793555Z 
2025-05-07T19:58:47.5794297Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.5795328Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.5795690Z                             ^
2025-05-07T19:58:47.5795895Z           detected during:
2025-05-07T19:58:47.5808900Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.5833752Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.5859182Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.5873620Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.5874666Z 
2025-05-07T19:58:47.5874976Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:58:47.5875287Z 
2025-05-07T19:58:47.5876024Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.5877024Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.5877353Z                  ^
2025-05-07T19:58:47.5877527Z           detected during:
2025-05-07T19:58:47.5889677Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:58:47.5914792Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.5939799Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.5965014Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.5979282Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.5980338Z 
2025-05-07T19:58:47.5981079Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.5982103Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.5982465Z                             ^
2025-05-07T19:58:47.5982669Z           detected during:
2025-05-07T19:58:47.5995749Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.6020408Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.6045802Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.6060153Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.6061203Z 
2025-05-07T19:58:47.6061407Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:58:47.6061708Z 
2025-05-07T19:58:47.6062444Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.6063448Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.6063772Z                  ^
2025-05-07T19:58:47.6063945Z           detected during:
2025-05-07T19:58:47.6076157Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:58:47.6101026Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.6125799Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.6151111Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.6165493Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.6166645Z 
2025-05-07T19:58:47.6167382Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.6168506Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.6168871Z                             ^
2025-05-07T19:58:47.6169078Z           detected during:
2025-05-07T19:58:47.6182008Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.6206750Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.6231906Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.6246315Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.6247367Z 
2025-05-07T19:58:47.6247567Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:58:47.6247868Z 
2025-05-07T19:58:47.6248600Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.6249594Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.6249925Z                  ^
2025-05-07T19:58:47.6250102Z           detected during:
2025-05-07T19:58:47.6262317Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:58:47.6287344Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.6312138Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.6337482Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.6351748Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.6352868Z 
2025-05-07T19:58:47.6353612Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.6354634Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.6354993Z                             ^
2025-05-07T19:58:47.6355195Z           detected during:
2025-05-07T19:58:47.6368220Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.6393028Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.6418190Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.6432595Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.6433647Z 
2025-05-07T19:58:47.6433851Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:58:47.6434244Z 
2025-05-07T19:58:47.6434982Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:58:47.6435980Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:58:47.6436309Z                  ^
2025-05-07T19:58:47.6436479Z           detected during:
2025-05-07T19:58:47.6448817Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:58:47.6473992Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:58:47.6498690Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:58:47.6523849Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:58:47.6538244Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu
2025-05-07T19:58:47.6539295Z 
2025-05-07T19:59:04.2735671Z [98/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu.o
2025-05-07T19:59:04.2783240Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:59:04.2784697Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.2785732Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.2786099Z                             ^
2025-05-07T19:59:04.2786238Z 
2025-05-07T19:59:04.2786443Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:04.2786748Z 
2025-05-07T19:59:04.2787504Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.2788563Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:59:04.2788918Z                             ^
2025-05-07T19:59:04.2789057Z 
2025-05-07T19:59:04.2789795Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.2790817Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.2791175Z                             ^
2025-05-07T19:59:04.2791379Z           detected during:
2025-05-07T19:59:04.2804927Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.2829837Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.2855424Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.2869974Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.2871037Z 
2025-05-07T19:59:04.2871245Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:04.2871549Z 
2025-05-07T19:59:04.2872404Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.2873402Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.2873734Z                  ^
2025-05-07T19:59:04.2873904Z           detected during:
2025-05-07T19:59:04.2886086Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:04.2911095Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.2935997Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.2961494Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.2975826Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.2976869Z 
2025-05-07T19:59:04.2977610Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.2978634Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.2978999Z                             ^
2025-05-07T19:59:04.2979200Z           detected during:
2025-05-07T19:59:04.2992490Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3017216Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.3043067Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3057426Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3058481Z 
2025-05-07T19:59:04.3058683Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:04.3058986Z 
2025-05-07T19:59:04.3059727Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.3060731Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.3061062Z                  ^
2025-05-07T19:59:04.3061238Z           detected during:
2025-05-07T19:59:04.3073520Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:04.3098459Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3123309Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.3148750Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3163318Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3164393Z 
2025-05-07T19:59:04.3165129Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.3166150Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.3166512Z                             ^
2025-05-07T19:59:04.3166717Z           detected during:
2025-05-07T19:59:04.3179680Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3204713Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.3229938Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3244435Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3245497Z 
2025-05-07T19:59:04.3245699Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:04.3246004Z 
2025-05-07T19:59:04.3246752Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.3247751Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.3248078Z                  ^
2025-05-07T19:59:04.3248245Z           detected during:
2025-05-07T19:59:04.3260511Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:04.3285579Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3310551Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.3335753Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3350159Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3351209Z 
2025-05-07T19:59:04.3352012Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.3353052Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.3353410Z                             ^
2025-05-07T19:59:04.3353611Z           detected during:
2025-05-07T19:59:04.3366655Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3391483Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.3416685Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3430927Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3432114Z 
2025-05-07T19:59:04.3432332Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:04.3432630Z 
2025-05-07T19:59:04.3433459Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.3434464Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.3434796Z                  ^
2025-05-07T19:59:04.3434966Z           detected during:
2025-05-07T19:59:04.3447247Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:04.3472249Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3496916Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.3522077Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3536327Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3537483Z 
2025-05-07T19:59:04.3538233Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.3539260Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.3539625Z                             ^
2025-05-07T19:59:04.3539823Z           detected during:
2025-05-07T19:59:04.3552998Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3577910Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
﻿2025-05-07T19:59:04.3613639Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3628124Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3629187Z 
2025-05-07T19:59:04.3629400Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:04.3629698Z 
2025-05-07T19:59:04.3630439Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.3631437Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.3631878Z                  ^
2025-05-07T19:59:04.3632050Z           detected during:
2025-05-07T19:59:04.3644475Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:04.3669601Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3694536Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.3719911Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3734292Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3735395Z 
2025-05-07T19:59:04.3736128Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.3737428Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.3737954Z                             ^
2025-05-07T19:59:04.3738164Z           detected during:
2025-05-07T19:59:04.3751116Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3776012Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.3801282Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3815549Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3816595Z 
2025-05-07T19:59:04.3816798Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:04.3817099Z 
2025-05-07T19:59:04.3817833Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:04.3818838Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:04.3819159Z                  ^
2025-05-07T19:59:04.3819327Z           detected during:
2025-05-07T19:59:04.3831456Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:04.3856745Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:04.3881702Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:04.3907040Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:04.3921456Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu
2025-05-07T19:59:04.3922508Z 
2025-05-07T19:59:07.6122231Z [99/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu.o
2025-05-07T19:59:07.6132421Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T19:59:07.6134152Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6135182Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6135685Z                             ^
2025-05-07T19:59:07.6135821Z 
2025-05-07T19:59:07.6136172Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:07.6136474Z 
2025-05-07T19:59:07.6137355Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6138393Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T19:59:07.6138759Z                             ^
2025-05-07T19:59:07.6138890Z 
2025-05-07T19:59:07.6139626Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6140647Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6141031Z                             ^
2025-05-07T19:59:07.6141242Z           detected during:
2025-05-07T19:59:07.6154525Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.6179407Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.6204740Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.6219052Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.6220112Z 
2025-05-07T19:59:07.6220316Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:07.6220618Z 
2025-05-07T19:59:07.6221362Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6222422Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6222753Z                  ^
2025-05-07T19:59:07.6222924Z           detected during:
2025-05-07T19:59:07.6235160Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:07.6260700Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.6285679Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.6310832Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.6325205Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.6326266Z 
2025-05-07T19:59:07.6327009Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6328038Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6328401Z                             ^
2025-05-07T19:59:07.6328601Z           detected during:
2025-05-07T19:59:07.6341787Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.6369317Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.6394906Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.6409290Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.6410351Z 
2025-05-07T19:59:07.6410556Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:07.6410853Z 
2025-05-07T19:59:07.6411595Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6412592Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6412921Z                  ^
2025-05-07T19:59:07.6413091Z           detected during:
2025-05-07T19:59:07.6425221Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:07.6450516Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.6475318Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.6500385Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.6514702Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.6515762Z 
2025-05-07T19:59:07.6516555Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6517589Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6517948Z                             ^
2025-05-07T19:59:07.6518154Z           detected during:
2025-05-07T19:59:07.6531136Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.6556365Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.6581530Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.6595898Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.6596956Z 
2025-05-07T19:59:07.6597158Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:07.6597453Z 
2025-05-07T19:59:07.6598187Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6599187Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6599513Z                  ^
2025-05-07T19:59:07.6599685Z           detected during:
2025-05-07T19:59:07.6611820Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:07.6637002Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.6661752Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.6687002Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.6701341Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.6702427Z 
2025-05-07T19:59:07.6703173Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6704195Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6704560Z                             ^
2025-05-07T19:59:07.6704755Z           detected during:
2025-05-07T19:59:07.6717796Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.6742640Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.6767841Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.6782104Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.6783155Z 
2025-05-07T19:59:07.6783360Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:07.6783656Z 
2025-05-07T19:59:07.6784391Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6785392Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6785766Z                  ^
2025-05-07T19:59:07.6785944Z           detected during:
2025-05-07T19:59:07.6798146Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:07.6823000Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.6847988Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.6873126Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.6887373Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.6888429Z 
2025-05-07T19:59:07.6889159Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6890186Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6890547Z                             ^
2025-05-07T19:59:07.6890750Z           detected during:
2025-05-07T19:59:07.6903690Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.6928465Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.6953787Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.6968116Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.6969218Z 
2025-05-07T19:59:07.6969420Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:07.6969770Z 
2025-05-07T19:59:07.6970545Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.6971547Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.6971873Z                  ^
2025-05-07T19:59:07.6972046Z           detected during:
2025-05-07T19:59:07.6984345Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:07.7010585Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.7035678Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.7060963Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.7075319Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.7076376Z 
2025-05-07T19:59:07.7077110Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.7078161Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.7078521Z                             ^
2025-05-07T19:59:07.7078723Z           detected during:
2025-05-07T19:59:07.7091697Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.7116515Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.7141870Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.7156243Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.7157308Z 
2025-05-07T19:59:07.7157513Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T19:59:07.7157811Z 
2025-05-07T19:59:07.7158548Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T19:59:07.7159537Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T19:59:07.7159863Z                  ^
2025-05-07T19:59:07.7160036Z           detected during:
2025-05-07T19:59:07.7172139Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T19:59:07.7197103Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T19:59:07.7221892Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T19:59:07.7247366Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T19:59:07.7261708Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu
2025-05-07T19:59:07.7262806Z 
2025-05-07T20:00:50.3403576Z [100/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu.o
2025-05-07T20:00:50.3414075Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:00:50.3415470Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.3416505Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.3416868Z                             ^
2025-05-07T20:00:50.3417012Z 
2025-05-07T20:00:50.3417217Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:00:50.3417521Z 
2025-05-07T20:00:50.3418410Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.3419459Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:00:50.3419815Z                             ^
2025-05-07T20:00:50.3420094Z 
2025-05-07T20:00:50.3420822Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.3421840Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.3422195Z                             ^
2025-05-07T20:00:50.3422459Z           detected during:
2025-05-07T20:00:50.3435754Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.3472352Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.3497830Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.3512317Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.3513391Z 
2025-05-07T20:00:50.3513606Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:00:50.3513910Z 
2025-05-07T20:00:50.3514655Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.3515652Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.3515978Z                  ^
2025-05-07T20:00:50.3516155Z           detected during:
2025-05-07T20:00:50.3528349Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:00:50.3555063Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.3579949Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.3605426Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.3619772Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.3620829Z 
2025-05-07T20:00:50.3621573Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.3622606Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.3622961Z                             ^
2025-05-07T20:00:50.3623164Z           detected during:
2025-05-07T20:00:50.3636291Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.3661253Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.3686520Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.3700836Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.3701892Z 
2025-05-07T20:00:50.3702098Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:00:50.3702399Z 
2025-05-07T20:00:50.3703141Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.3704191Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.3704522Z                  ^
2025-05-07T20:00:50.3704694Z           detected during:
2025-05-07T20:00:50.3716926Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:00:50.3748830Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.3774084Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.3799494Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.3813774Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.3814819Z 
2025-05-07T20:00:50.3815561Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.3816582Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.3816938Z                             ^
2025-05-07T20:00:50.3817142Z           detected during:
2025-05-07T20:00:50.3830087Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.3855309Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.3880555Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.3894944Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.3895999Z 
2025-05-07T20:00:50.3896205Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:00:50.3896506Z 
2025-05-07T20:00:50.3897237Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.3898227Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.3898557Z                  ^
2025-05-07T20:00:50.3898733Z           detected during:
2025-05-07T20:00:50.3910834Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:00:50.3935953Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.3961010Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.3986177Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.4000521Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.4001580Z 
2025-05-07T20:00:50.4002408Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.4003439Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.4003801Z                             ^
2025-05-07T20:00:50.4004055Z           detected during:
2025-05-07T20:00:50.4017084Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.4042086Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.4067209Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.4081529Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.4082580Z 
2025-05-07T20:00:50.4082783Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:00:50.4083084Z 
2025-05-07T20:00:50.4083817Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.4084821Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.4085146Z                  ^
2025-05-07T20:00:50.4085320Z           detected during:
2025-05-07T20:00:50.4097482Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:00:50.4122504Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.4170518Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.4196201Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.4210753Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.4211858Z 
2025-05-07T20:00:50.4212601Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.4213643Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.4214001Z                             ^
2025-05-07T20:00:50.4214204Z           detected during:
2025-05-07T20:00:50.4227168Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.4252365Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.4277618Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.4291860Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.4292913Z 
2025-05-07T20:00:50.4293115Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:00:50.4293416Z 
2025-05-07T20:00:50.4294168Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.4295218Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.4295549Z                  ^
2025-05-07T20:00:50.4295718Z           detected during:
2025-05-07T20:00:50.4307855Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:00:50.4332924Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.4358081Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.4383248Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.4397636Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.4398692Z 
2025-05-07T20:00:50.4399438Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.4400477Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.4400836Z                             ^
2025-05-07T20:00:50.4401041Z           detected during:
2025-05-07T20:00:50.4414043Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.4439099Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.4464279Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.4478687Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.4479794Z 
2025-05-07T20:00:50.4480075Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:00:50.4480379Z 
2025-05-07T20:00:50.4481125Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:00:50.4482120Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:00:50.4482447Z                  ^
2025-05-07T20:00:50.4482620Z           detected during:
2025-05-07T20:00:50.4494744Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=13, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=2, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:00:50.4519731Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:00:50.4544654Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:00:50.4570036Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<13, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<128>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 128, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::_4, cute::_512>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<4, 2, 32, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<128>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_32, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b4x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:00:50.4584319Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=128, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu
2025-05-07T20:00:50.4585372Z 
2025-05-07T20:01:48.9282878Z [101/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu.o
2025-05-07T20:01:48.9293456Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:01:48.9294849Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:01:48.9295888Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:01:48.9296253Z                             ^
2025-05-07T20:01:48.9296388Z 
2025-05-07T20:01:48.9296595Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:01:48.9296906Z 
2025-05-07T20:01:48.9297671Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:01:48.9298713Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:01:48.9299071Z                             ^
2025-05-07T20:01:48.9299206Z 
2025-05-07T20:01:48.9299938Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:01:48.9300959Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:01:48.9301322Z                             ^
2025-05-07T20:01:48.9301528Z           detected during:
2025-05-07T20:01:48.9314938Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:01:48.9340118Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:01:48.9365592Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:01:48.9379911Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu
2025-05-07T20:01:48.9380975Z 
2025-05-07T20:01:48.9381184Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:01:48.9381486Z 
2025-05-07T20:01:48.9382224Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:01:48.9383242Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:01:48.9383600Z                             ^
2025-05-07T20:01:48.9383808Z           detected during:
2025-05-07T20:01:48.9396929Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:01:48.9421718Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:01:48.9447358Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:01:48.9461733Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu
2025-05-07T20:01:48.9462835Z 
2025-05-07T20:01:48.9463039Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:01:48.9463335Z 
2025-05-07T20:01:48.9464074Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:01:48.9465212Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:01:48.9465579Z                             ^
2025-05-07T20:01:48.9465784Z           detected during:
2025-05-07T20:01:48.9478919Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:01:48.9503744Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:01:48.9529119Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:01:48.9543657Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu
2025-05-07T20:01:48.9544718Z 
2025-05-07T20:01:48.9544930Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:01:48.9545234Z 
2025-05-07T20:01:48.9545969Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:01:48.9546999Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:01:48.9547356Z                             ^
2025-05-07T20:01:48.9547558Z           detected during:
2025-05-07T20:01:48.9560807Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:01:48.9585739Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:01:48.9611147Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:01:48.9625528Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu
2025-05-07T20:01:48.9626587Z 
2025-05-07T20:01:48.9626795Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:01:48.9627093Z 
2025-05-07T20:01:48.9627839Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:01:48.9628853Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:01:48.9629217Z                             ^
2025-05-07T20:01:48.9629417Z           detected during:
2025-05-07T20:01:48.9642697Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:01:48.9667578Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:01:48.9692973Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:01:48.9707298Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu
2025-05-07T20:01:48.9708392Z 
2025-05-07T20:01:48.9708603Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:01:48.9708900Z 
2025-05-07T20:01:48.9709635Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:01:48.9710774Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:01:48.9711143Z                             ^
2025-05-07T20:01:48.9711347Z           detected during:
2025-05-07T20:01:48.9724434Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:01:48.9749408Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:01:48.9774716Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:01:48.9789018Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu
2025-05-07T20:01:48.9790070Z 
2025-05-07T20:01:48.9790275Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:01:48.9790573Z 
2025-05-07T20:02:24.7797882Z [102/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu.o
2025-05-07T20:02:24.7808288Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:02:24.7809685Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:24.7810724Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:24.7811087Z                             ^
2025-05-07T20:02:24.7811222Z 
2025-05-07T20:02:24.7811426Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:24.7811728Z 
2025-05-07T20:02:24.7812487Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:24.7813536Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:02:24.7813891Z                             ^
2025-05-07T20:02:24.7814027Z 
2025-05-07T20:02:24.7814759Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:24.7815778Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:24.7816139Z                             ^
2025-05-07T20:02:24.7816338Z           detected during:
2025-05-07T20:02:24.7829528Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:24.7854786Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:24.7880242Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:24.7894537Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu
2025-05-07T20:02:24.7895591Z 
2025-05-07T20:02:24.7895794Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:24.7896102Z 
2025-05-07T20:02:24.7896845Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:24.7897870Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:24.7898227Z                             ^
2025-05-07T20:02:24.7898430Z           detected during:
2025-05-07T20:02:24.7911418Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:24.7936297Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:24.7961843Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:24.7976220Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu
2025-05-07T20:02:24.7977276Z 
2025-05-07T20:02:24.7977521Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:24.7977822Z 
2025-05-07T20:02:24.7978563Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:24.7979592Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:24.7979992Z                             ^
2025-05-07T20:02:24.7980230Z           detected during:
2025-05-07T20:02:24.7993310Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:24.8018039Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:24.8043460Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:24.8057782Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu
2025-05-07T20:02:24.8058832Z 
2025-05-07T20:02:24.8059039Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:24.8059342Z 
2025-05-07T20:02:24.8060076Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:24.8061105Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:24.8061459Z                             ^
2025-05-07T20:02:24.8061661Z           detected during:
2025-05-07T20:02:24.8074780Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:24.8099514Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:24.8124934Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:24.8139487Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu
2025-05-07T20:02:24.8140537Z 
2025-05-07T20:02:24.8140741Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:24.8141041Z 
2025-05-07T20:02:24.8141785Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:24.8142803Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:24.8143162Z                             ^
2025-05-07T20:02:24.8143360Z           detected during:
2025-05-07T20:02:24.8156569Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:24.8181382Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:24.8206590Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:24.8220968Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu
2025-05-07T20:02:24.8222042Z 
2025-05-07T20:02:24.8222247Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:24.8222543Z 
2025-05-07T20:02:24.8223278Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:24.8224299Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:24.8224726Z                             ^
2025-05-07T20:02:24.8224933Z           detected during:
2025-05-07T20:02:24.8238161Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:24.8262937Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:24.8288148Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:24.8302398Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu
2025-05-07T20:02:24.8303441Z 
2025-05-07T20:02:24.8303645Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:24.8303947Z 
2025-05-07T20:02:37.3962853Z [103/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu.o
2025-05-07T20:02:37.3973334Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:02:37.3974738Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:37.3975771Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:37.3976133Z                             ^
2025-05-07T20:02:37.3976275Z 
2025-05-07T20:02:37.3976478Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:37.3976784Z 
2025-05-07T20:02:37.3977539Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:37.3978585Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:02:37.3978979Z                             ^
2025-05-07T20:02:37.3979120Z 
2025-05-07T20:02:37.3979858Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:37.3980884Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:37.3981249Z                             ^
2025-05-07T20:02:37.3981452Z           detected during:
2025-05-07T20:02:37.3994874Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:37.4019844Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:37.4045580Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:37.4060100Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu
2025-05-07T20:02:37.4061167Z 
2025-05-07T20:02:37.4061376Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:37.4061686Z 
2025-05-07T20:02:37.4062431Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:37.4063473Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:37.4063836Z                             ^
2025-05-07T20:02:37.4064045Z           detected during:
2025-05-07T20:02:37.4077270Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:37.4102218Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:37.4127650Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:37.4142303Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu
2025-05-07T20:02:37.4143378Z 
2025-05-07T20:02:37.4143586Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:37.4143891Z 
2025-05-07T20:02:37.4144746Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:37.4145777Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:37.4146146Z                             ^
2025-05-07T20:02:37.4146430Z           detected during:
2025-05-07T20:02:37.4159660Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:37.4184638Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:37.4210089Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:37.4224450Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu
2025-05-07T20:02:37.4225504Z 
2025-05-07T20:02:37.4225712Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:37.4226016Z 
2025-05-07T20:02:37.4226763Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:37.4227793Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:37.4228158Z                             ^
2025-05-07T20:02:37.4228366Z           detected during:
2025-05-07T20:02:37.4241985Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:37.4267145Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:37.4292831Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:37.4307384Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu
2025-05-07T20:02:37.4308456Z 
2025-05-07T20:02:37.4308664Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:37.4308970Z 
2025-05-07T20:02:37.4309721Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:37.4310762Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:37.4311130Z                             ^
2025-05-07T20:02:37.4311331Z           detected during:
2025-05-07T20:02:37.4324620Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:37.4349934Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:37.4375460Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:37.4390089Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu
2025-05-07T20:02:37.4391166Z 
2025-05-07T20:02:37.4391380Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:37.4391802Z 
2025-05-07T20:02:37.4392556Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:02:37.4393596Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:02:37.4394053Z                             ^
2025-05-07T20:02:37.4394265Z           detected during:
2025-05-07T20:02:37.4407438Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:02:37.4432507Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:02:37.4458311Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:02:37.4472848Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu
2025-05-07T20:02:37.4473920Z 
2025-05-07T20:02:37.4474133Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:02:37.4474436Z 
2025-05-07T20:04:11.1038031Z [104/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu.o
2025-05-07T20:04:11.1048509Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:04:11.1049921Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:04:11.1050961Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:04:11.1051326Z                             ^
2025-05-07T20:04:11.1051462Z 
2025-05-07T20:04:11.1051665Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:04:11.1051971Z 
2025-05-07T20:04:11.1052730Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:04:11.1053772Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:04:11.1054131Z                             ^
2025-05-07T20:04:11.1054265Z 
2025-05-07T20:04:11.1055005Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:04:11.1056026Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:04:11.1056386Z                             ^
2025-05-07T20:04:11.1056586Z           detected during:
2025-05-07T20:04:11.1069985Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:04:11.1095183Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:04:11.1120638Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:04:11.1135105Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu
2025-05-07T20:04:11.1136167Z 
2025-05-07T20:04:11.1136369Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:04:11.1137590Z 
2025-05-07T20:04:11.1138364Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:04:11.1139409Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:04:11.1139769Z                             ^
2025-05-07T20:04:11.1139975Z           detected during:
2025-05-07T20:04:11.1153285Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:04:11.1178167Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:04:11.1203508Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:04:11.1217829Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu
2025-05-07T20:04:11.1218884Z 
2025-05-07T20:04:11.1219090Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:04:11.1219389Z 
2025-05-07T20:04:11.1220123Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:04:11.1221194Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:04:11.1221556Z                             ^
2025-05-07T20:04:11.1221755Z           detected during:
2025-05-07T20:04:11.1234895Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:04:11.1259932Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:04:11.1285295Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:04:11.1299616Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu
2025-05-07T20:04:11.1300669Z 
2025-05-07T20:04:11.1300878Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:04:11.1301178Z 
2025-05-07T20:04:11.1301919Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:04:11.1302945Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:04:11.1303304Z                             ^
2025-05-07T20:04:11.1303509Z           detected during:
2025-05-07T20:04:11.1316616Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:04:11.1341607Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:04:11.1366989Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:04:11.1381306Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu
2025-05-07T20:04:11.1382354Z 
2025-05-07T20:04:11.1382557Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:04:11.1382853Z 
2025-05-07T20:04:11.1383590Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:04:11.1384612Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:04:11.1384974Z                             ^
2025-05-07T20:04:11.1385173Z           detected during:
2025-05-07T20:04:11.1398291Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:04:11.1423040Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:04:11.1448502Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:04:11.1462916Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu
2025-05-07T20:04:11.1463964Z 
2025-05-07T20:04:11.1464169Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:04:11.1464469Z 
2025-05-07T20:04:11.1465204Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:04:11.1466284Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:04:11.1466643Z                             ^
2025-05-07T20:04:11.1466848Z           detected during:
2025-05-07T20:04:11.1479977Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:04:11.1504716Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:04:11.1530012Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:04:11.1544434Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu
2025-05-07T20:04:11.1545488Z 
2025-05-07T20:04:11.1545696Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:04:11.1545993Z 
2025-05-07T20:05:54.7369833Z [105/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu.o
2025-05-07T20:05:54.7380464Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:05:54.7381873Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:54.7382924Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:54.7383296Z                             ^
2025-05-07T20:05:54.7383432Z 
2025-05-07T20:05:54.7383638Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:54.7383954Z 
2025-05-07T20:05:54.7384716Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:54.7385767Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:05:54.7386120Z                             ^
2025-05-07T20:05:54.7386259Z 
2025-05-07T20:05:54.7387011Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:54.7388040Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:54.7388406Z                             ^
2025-05-07T20:05:54.7388610Z           detected during:
2025-05-07T20:05:54.7402037Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:54.7426991Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:54.7452658Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:54.7467141Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu
2025-05-07T20:05:54.7468207Z 
2025-05-07T20:05:54.7468424Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:54.7468731Z 
2025-05-07T20:05:54.7469473Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:54.7470509Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:54.7470875Z                             ^
2025-05-07T20:05:54.7471084Z           detected during:
2025-05-07T20:05:54.7484316Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:54.7509231Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:54.7534641Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:54.7549148Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu
2025-05-07T20:05:54.7550210Z 
2025-05-07T20:05:54.7551100Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:54.7551439Z 
2025-05-07T20:05:54.7552283Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:54.7553414Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:54.7553781Z                             ^
2025-05-07T20:05:54.7553980Z           detected during:
2025-05-07T20:05:54.7567135Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:54.7592061Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:54.7617321Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:54.7631891Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu
2025-05-07T20:05:54.7632956Z 
2025-05-07T20:05:54.7633163Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:54.7633469Z 
2025-05-07T20:05:54.7634212Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:54.7635243Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:54.7635598Z                             ^
2025-05-07T20:05:54.7635802Z           detected during:
2025-05-07T20:05:54.7649039Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:54.7674073Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:54.7699363Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:54.7713882Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu
2025-05-07T20:05:54.7714955Z 
2025-05-07T20:05:54.7715164Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:54.7715466Z 
2025-05-07T20:05:54.7716212Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:54.7717235Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:54.7717604Z                             ^
2025-05-07T20:05:54.7717808Z           detected during:
2025-05-07T20:05:54.7730944Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:54.7756141Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:54.7781479Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:54.7795882Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu
2025-05-07T20:05:54.7796939Z 
2025-05-07T20:05:54.7797531Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:54.7797844Z 
2025-05-07T20:05:54.7798585Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:54.7799691Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:54.7814141Z                             ^
2025-05-07T20:05:54.7814585Z           detected during:
2025-05-07T20:05:54.7828023Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:54.7853445Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:54.7878789Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:54.7893070Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu
2025-05-07T20:05:54.7894129Z 
2025-05-07T20:05:54.7894332Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:54.7894630Z 
2025-05-07T20:05:55.1484404Z [106/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu.o
2025-05-07T20:05:55.1494855Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:05:55.1496256Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.1497294Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.1497667Z                             ^
2025-05-07T20:05:55.1497804Z 
2025-05-07T20:05:55.1498009Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:55.1498316Z 
2025-05-07T20:05:55.1499076Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.1500134Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:05:55.1500494Z                             ^
2025-05-07T20:05:55.1500631Z 
2025-05-07T20:05:55.1501366Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.1502394Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.1502752Z                             ^
2025-05-07T20:05:55.1502953Z           detected during:
2025-05-07T20:05:55.1515979Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.1540642Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.1565564Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.1579664Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.1580774Z 
2025-05-07T20:05:55.1580980Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:55.1581335Z 
2025-05-07T20:05:55.1582089Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.1583088Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.1583415Z                  ^
2025-05-07T20:05:55.1583588Z           detected during:
2025-05-07T20:05:55.1595825Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:05:55.1620504Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.1645145Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.1669847Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.1684001Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.1685061Z 
2025-05-07T20:05:55.1685813Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.1686839Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.1687202Z                             ^
2025-05-07T20:05:55.1687402Z           detected during:
2025-05-07T20:05:55.1700284Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.1724845Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.1749873Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.1764152Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.1765213Z 
2025-05-07T20:05:55.1765429Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:55.1765737Z 
2025-05-07T20:05:55.1766478Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.1767486Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.1767814Z                  ^
2025-05-07T20:05:55.1767987Z           detected during:
2025-05-07T20:05:55.1780105Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:05:55.1804853Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.1829123Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.1854000Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.1868031Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.1869088Z 
2025-05-07T20:05:55.1869831Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.1870861Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.1871220Z                             ^
2025-05-07T20:05:55.1871470Z           detected during:
2025-05-07T20:05:55.1884269Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.1908528Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.1933262Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.1947501Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.1948564Z 
2025-05-07T20:05:55.1948769Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:55.1949069Z 
2025-05-07T20:05:55.1949807Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.1950805Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.1951124Z                  ^
2025-05-07T20:05:55.1951298Z           detected during:
2025-05-07T20:05:55.1963542Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:05:55.1988162Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.2012354Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.2037125Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.2051235Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.2052294Z 
2025-05-07T20:05:55.2053031Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.2054104Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.2054461Z                             ^
2025-05-07T20:05:55.2054664Z           detected during:
2025-05-07T20:05:55.2067426Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.2091775Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.2116350Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.2130313Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.2131368Z 
2025-05-07T20:05:55.2131573Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:55.2131869Z 
2025-05-07T20:05:55.2132612Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.2133609Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.2133942Z                  ^
2025-05-07T20:05:55.2134112Z           detected during:
2025-05-07T20:05:55.2146461Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:05:55.2171156Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.2195376Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.2219906Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.2233959Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.2235072Z 
2025-05-07T20:05:55.2235885Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.2237061Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.2237426Z                             ^
2025-05-07T20:05:55.2237630Z           detected during:
2025-05-07T20:05:55.2250390Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.2274633Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.2299146Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.2313160Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.2314213Z 
2025-05-07T20:05:55.2314421Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:55.2314725Z 
2025-05-07T20:05:55.2315463Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.2316456Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.2316778Z                  ^
2025-05-07T20:05:55.2316950Z           detected during:
2025-05-07T20:05:55.2329019Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:05:55.2353871Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.2378019Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.2402551Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.2416656Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.2417706Z 
2025-05-07T20:05:55.2418448Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.2419478Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.2419833Z                             ^
2025-05-07T20:05:55.2420035Z           detected during:
2025-05-07T20:05:55.2432757Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.2457151Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.2481828Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.2495828Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.2496882Z 
2025-05-07T20:05:55.2497082Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:05:55.2497377Z 
2025-05-07T20:05:55.2498114Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:05:55.2499132Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:05:55.2499466Z                  ^
2025-05-07T20:05:55.2499635Z           detected during:
2025-05-07T20:05:55.2511679Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:05:55.2536391Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:05:55.2560864Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:05:55.2585579Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:05:55.2599682Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu
2025-05-07T20:05:55.2600738Z 
2025-05-07T20:06:10.6225769Z [107/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu.o
2025-05-07T20:06:10.6236161Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:06:10.6237821Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:06:10.6238968Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:06:10.6239489Z                             ^
2025-05-07T20:06:10.6239634Z 
2025-05-07T20:06:10.6239849Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:06:10.6240152Z 
2025-05-07T20:06:10.6240910Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:06:10.6241954Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:06:10.6242311Z                             ^
2025-05-07T20:06:10.6242447Z 
2025-05-07T20:06:10.6243181Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:06:10.6244209Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:06:10.6244564Z                             ^
2025-05-07T20:06:10.6244762Z           detected during:
2025-05-07T20:06:10.6257905Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:06:10.6282968Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:06:10.6308174Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:06:10.6322612Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu
2025-05-07T20:06:10.6323727Z 
2025-05-07T20:06:10.6323938Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:06:10.6324240Z 
2025-05-07T20:06:10.6324980Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:06:10.6326061Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:06:10.6326425Z                             ^
2025-05-07T20:06:10.6326628Z           detected during:
2025-05-07T20:06:10.6339973Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:06:10.6364991Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:06:10.6390271Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:06:10.6404664Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu
2025-05-07T20:06:10.6405715Z 
2025-05-07T20:06:10.6405926Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:06:10.6406227Z 
2025-05-07T20:06:10.6406966Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:06:10.6407991Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:06:10.6408351Z                             ^
2025-05-07T20:06:10.6408554Z           detected during:
2025-05-07T20:06:10.6421543Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:06:10.6446576Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:06:10.6471756Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:06:10.6486063Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu
2025-05-07T20:06:10.6487117Z 
2025-05-07T20:06:10.6487320Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:06:10.6487623Z 
2025-05-07T20:06:10.6488361Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:06:10.6489389Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:06:10.6489748Z                             ^
2025-05-07T20:06:10.6489949Z           detected during:
2025-05-07T20:06:10.6502886Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:06:10.6527639Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:06:10.6552959Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:06:10.6567249Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu
2025-05-07T20:06:10.6568299Z 
2025-05-07T20:06:10.6568552Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:06:10.6568855Z 
2025-05-07T20:06:10.6569592Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:06:10.6570653Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:06:10.6571012Z                             ^
2025-05-07T20:06:10.6571209Z           detected during:
2025-05-07T20:06:10.6584158Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:06:10.6608960Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:06:10.6634042Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:06:10.6648475Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu
2025-05-07T20:06:10.6649534Z 
2025-05-07T20:06:10.6649737Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:06:10.6650040Z 
2025-05-07T20:06:10.6650784Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:06:10.6651818Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:06:10.6652178Z                             ^
2025-05-07T20:06:10.6652421Z           detected during:
2025-05-07T20:06:10.6665551Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:06:10.6690553Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:06:10.6715760Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<10, 3, 2, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<192>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 192, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 64, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<192>, cute::C<128>>, cute::tuple<cute::Layout<cute::_128, cute::_1>, cute::Layout<cute::_64, cute::_1>>>, cute::SM100_TMEM_LOAD_16dp256b8x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:06:10.6730067Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=192, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu
2025-05-07T20:06:10.6731110Z 
2025-05-07T20:06:10.6731319Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:06:10.6731615Z 
2025-05-07T20:07:28.2716322Z [108/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu.o
2025-05-07T20:07:28.2726589Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:07:28.2727988Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.2729189Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.2729548Z                             ^
2025-05-07T20:07:28.2729690Z 
2025-05-07T20:07:28.2729898Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:07:28.2730311Z 
2025-05-07T20:07:28.2731171Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.2732220Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:07:28.2732582Z                             ^
2025-05-07T20:07:28.2732716Z 
2025-05-07T20:07:28.2733451Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.2734480Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.2734838Z                             ^
2025-05-07T20:07:28.2735034Z           detected during:
2025-05-07T20:07:28.2748135Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.2772647Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.2797468Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.2811586Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.2812643Z 
2025-05-07T20:07:28.2812847Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:07:28.2813150Z 
2025-05-07T20:07:28.2813891Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.2814899Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.2815225Z                  ^
2025-05-07T20:07:28.2815458Z           detected during:
2025-05-07T20:07:28.2827595Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:07:28.2852614Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.2877015Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.2901725Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.2915787Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.2916845Z 
2025-05-07T20:07:28.2917591Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.2918618Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.2918975Z                             ^
2025-05-07T20:07:28.2919180Z           detected during:
2025-05-07T20:07:28.2931889Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.2956391Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.2981451Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.2995529Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.2996587Z 
2025-05-07T20:07:28.2996843Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:07:28.2997151Z 
2025-05-07T20:07:28.2997894Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.2998934Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.2999258Z                  ^
2025-05-07T20:07:28.2999428Z           detected during:
2025-05-07T20:07:28.3011515Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:07:28.3036197Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.3060566Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.3085377Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.3099395Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.3100439Z 
2025-05-07T20:07:28.3101180Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.3102205Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.3102558Z                             ^
2025-05-07T20:07:28.3102760Z           detected during:
2025-05-07T20:07:28.3115492Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.3139817Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.3164540Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.3178564Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.3179651Z 
2025-05-07T20:07:28.3179862Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:07:28.3180161Z 
2025-05-07T20:07:28.3180943Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.3181980Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.3182309Z                  ^
2025-05-07T20:07:28.3182475Z           detected during:
2025-05-07T20:07:28.3194572Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:07:28.3219176Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.3243650Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.3268181Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.3282202Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.3283246Z 
2025-05-07T20:07:28.3283998Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.3285020Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.3285383Z                             ^
2025-05-07T20:07:28.3285581Z           detected during:
2025-05-07T20:07:28.3298243Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.3322473Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.3347224Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.3361352Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.3362440Z 
2025-05-07T20:07:28.3362646Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:07:28.3362947Z 
2025-05-07T20:07:28.3363681Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.3364678Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.3365000Z                  ^
2025-05-07T20:07:28.3365190Z           detected during:
2025-05-07T20:07:28.3377238Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:07:28.3401842Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.3425984Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.3450858Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.3464909Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.3465954Z 
2025-05-07T20:07:28.3466692Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.3467713Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.3468075Z                             ^
2025-05-07T20:07:28.3468274Z           detected during:
2025-05-07T20:07:28.3481097Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.3505268Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.3529882Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.3543964Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.3545014Z 
2025-05-07T20:07:28.3545222Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:07:28.3545520Z 
2025-05-07T20:07:28.3546255Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.3547261Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.3547587Z                  ^
2025-05-07T20:07:28.3547756Z           detected during:
2025-05-07T20:07:28.3559965Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:07:28.3584549Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.3608786Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.3633345Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.3647446Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.3648496Z 
2025-05-07T20:07:28.3649347Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.3650375Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.3650734Z                             ^
2025-05-07T20:07:28.3650933Z           detected during:
2025-05-07T20:07:28.3663701Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.3687973Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.3712533Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.3726518Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.3727565Z 
2025-05-07T20:07:28.3727768Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:07:28.3728073Z 
2025-05-07T20:07:28.3728806Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:07:28.3729806Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:07:28.3730130Z                  ^
2025-05-07T20:07:28.3730301Z           detected during:
2025-05-07T20:07:28.3742576Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_1, cute::_1>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:07:28.3767254Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:07:28.3791507Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:07:28.3816078Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_1, cute::_1>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:07:28.3830134Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu
2025-05-07T20:07:28.3831217Z 
2025-05-07T20:08:29.0531912Z [109/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu.o
2025-05-07T20:08:29.0542451Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:08:29.0543851Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.0544890Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.0545255Z                             ^
2025-05-07T20:08:29.0545396Z 
2025-05-07T20:08:29.0545600Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:08:29.0545915Z 
2025-05-07T20:08:29.0546677Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.0547889Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:08:29.0548255Z                             ^
2025-05-07T20:08:29.0548399Z 
2025-05-07T20:08:29.0549133Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.0550244Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.0550605Z                             ^
2025-05-07T20:08:29.0550811Z           detected during:
2025-05-07T20:08:29.0563874Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.0588395Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.0613228Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.0627315Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.0628372Z 
2025-05-07T20:08:29.0628580Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:08:29.0628882Z 
2025-05-07T20:08:29.0629617Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.0630622Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.0630950Z                  ^
2025-05-07T20:08:29.0631133Z           detected during:
2025-05-07T20:08:29.0643640Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:08:29.0668501Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.0692936Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.0718142Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.0732297Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.0733420Z 
2025-05-07T20:08:29.0734170Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.0735205Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.0735566Z                             ^
2025-05-07T20:08:29.0735770Z           detected during:
2025-05-07T20:08:29.0748983Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.0773496Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.0798275Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.0812495Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.0813552Z 
2025-05-07T20:08:29.0813757Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:08:29.0814055Z 
2025-05-07T20:08:29.0814801Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.0815803Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.0816157Z                  ^
2025-05-07T20:08:29.0816327Z           detected during:
2025-05-07T20:08:29.0828516Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:08:29.0853666Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.0878106Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.0902921Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.0946700Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.0947821Z 
2025-05-07T20:08:29.0948568Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.0949620Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.0949986Z                             ^
2025-05-07T20:08:29.0950194Z           detected during:
2025-05-07T20:08:29.0963328Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.0987775Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.1012620Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.1026730Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.1027791Z 
2025-05-07T20:08:29.1027998Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:08:29.1028305Z 
2025-05-07T20:08:29.1029099Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.1030110Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.1030482Z                  ^
2025-05-07T20:08:29.1030656Z           detected during:
2025-05-07T20:08:29.1043061Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:08:29.1067844Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.1092237Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.1117090Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.1131173Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.1132226Z 
2025-05-07T20:08:29.1132962Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.1133996Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.1134355Z                             ^
2025-05-07T20:08:29.1134560Z           detected during:
2025-05-07T20:08:29.1147644Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.1172118Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.1197019Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.1211122Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.1212222Z 
2025-05-07T20:08:29.1212422Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:08:29.1212720Z 
2025-05-07T20:08:29.1213509Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.1214542Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.1214875Z                  ^
2025-05-07T20:08:29.1215054Z           detected during:
2025-05-07T20:08:29.1227208Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:08:29.1252290Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.1276894Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.1301659Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.1315812Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.1316870Z 
2025-05-07T20:08:29.1317609Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.1318639Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.1318995Z                             ^
2025-05-07T20:08:29.1319200Z           detected during:
2025-05-07T20:08:29.1331996Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.1356736Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.1381521Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.1395784Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.1396848Z 
2025-05-07T20:08:29.1397050Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:08:29.1397347Z 
2025-05-07T20:08:29.1398091Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.1399089Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.1399422Z                  ^
2025-05-07T20:08:29.1399601Z           detected during:
2025-05-07T20:08:29.1411736Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:08:29.1436734Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.1461156Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.1486000Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.1500070Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.1501131Z 
2025-05-07T20:08:29.1501870Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.1502903Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.1503260Z                             ^
2025-05-07T20:08:29.1503519Z           detected during:
2025-05-07T20:08:29.1516394Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.1540979Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.1565908Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.1579985Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.1581042Z 
2025-05-07T20:08:29.1581248Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:08:29.1581547Z 
2025-05-07T20:08:29.1582287Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:29.1583284Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:29.1583614Z                  ^
2025-05-07T20:08:29.1583784Z           detected during:
2025-05-07T20:08:29.1596004Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:08:29.1620920Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:08:29.1645525Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:08:29.1670291Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:08:29.1684502Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu
2025-05-07T20:08:29.1685558Z 
2025-05-07T20:08:32.4906820Z [110/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16.cu.o
2025-05-07T20:08:32.4917005Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:08:32.4918398Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:32.4919424Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:08:32.4919783Z                             ^
2025-05-07T20:08:32.4919923Z 
2025-05-07T20:08:32.4920123Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:08:32.4920423Z 
2025-05-07T20:08:32.4921181Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:08:32.4922227Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:08:32.4922580Z                             ^
2025-05-07T20:08:32.4922713Z 
2025-05-07T20:09:08.1157609Z [111/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu.o
2025-05-07T20:09:08.1168055Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:09:08.1169460Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1170489Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1170851Z                             ^
2025-05-07T20:09:08.1170987Z 
2025-05-07T20:09:08.1171191Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:08.1171498Z 
2025-05-07T20:09:08.1172253Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1173292Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:09:08.1173648Z                             ^
2025-05-07T20:09:08.1173790Z 
2025-05-07T20:09:08.1174620Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1175652Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1176007Z                             ^
2025-05-07T20:09:08.1176209Z           detected during:
2025-05-07T20:09:08.1189060Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.1213737Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.1239028Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.1253193Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.1254251Z 
2025-05-07T20:09:08.1254462Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:08.1254758Z 
2025-05-07T20:09:08.1255502Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1256497Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1256825Z                  ^
2025-05-07T20:09:08.1256991Z           detected during:
2025-05-07T20:09:08.1269238Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:08.1294144Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.1318623Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.1343640Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.1357853Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.1358964Z 
2025-05-07T20:09:08.1359704Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1360781Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1361187Z                             ^
2025-05-07T20:09:08.1361392Z           detected during:
2025-05-07T20:09:08.1374164Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.1398541Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.1423195Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.1437542Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.1438604Z 
2025-05-07T20:09:08.1438808Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:08.1439109Z 
2025-05-07T20:09:08.1439857Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1440857Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1441184Z                  ^
2025-05-07T20:09:08.1441360Z           detected during:
2025-05-07T20:09:08.1453703Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:08.1478614Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.1502941Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.1527699Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.1542065Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.1543118Z 
2025-05-07T20:09:08.1543855Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1544889Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1545246Z                             ^
2025-05-07T20:09:08.1545447Z           detected during:
2025-05-07T20:09:08.1558382Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.1582867Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.1607683Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.1621800Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.1622846Z 
2025-05-07T20:09:08.1623049Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:08.1623345Z 
2025-05-07T20:09:08.1624090Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1625087Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1625415Z                  ^
2025-05-07T20:09:08.1625581Z           detected during:
2025-05-07T20:09:08.1638109Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:08.1662906Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.1687353Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.1712236Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.1726330Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.1727380Z 
2025-05-07T20:09:08.1728127Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1729141Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1729501Z                             ^
2025-05-07T20:09:08.1729702Z           detected during:
2025-05-07T20:09:08.1742700Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.1767222Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.1792037Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.1806137Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.1807183Z 
2025-05-07T20:09:08.1807394Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:08.1807692Z 
2025-05-07T20:09:08.1808429Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1809472Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1809800Z                  ^
2025-05-07T20:09:08.1809964Z           detected during:
2025-05-07T20:09:08.1822168Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:08.1847301Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.1871663Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.1896413Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.1910479Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.1911526Z 
2025-05-07T20:09:08.1912338Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1913369Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1913733Z                             ^
2025-05-07T20:09:08.1913932Z           detected during:
2025-05-07T20:09:08.1926701Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.1951203Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.1976112Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.1990232Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.1991333Z 
2025-05-07T20:09:08.1991538Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:08.1991961Z 
2025-05-07T20:09:08.1992707Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.1993703Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.1994024Z                  ^
2025-05-07T20:09:08.1994193Z           detected during:
2025-05-07T20:09:08.2006324Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:08.2031062Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.2055736Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.2080693Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.2094795Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.2095846Z 
2025-05-07T20:09:08.2096583Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.2097612Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.2097979Z                             ^
2025-05-07T20:09:08.2098178Z           detected during:
2025-05-07T20:09:08.2110983Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.2135363Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.2160444Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.2174606Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.2175656Z 
2025-05-07T20:09:08.2175854Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:08.2176152Z 
2025-05-07T20:09:08.2176884Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:08.2177883Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:08.2178207Z                  ^
2025-05-07T20:09:08.2178379Z           detected during:
2025-05-07T20:09:08.2190553Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::_2, cute::_2, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:08.2215357Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:08.2239960Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:08.2264749Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::_2, cute::_2, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:08.2278882Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=2, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu
2025-05-07T20:09:08.2279924Z 
2025-05-07T20:09:21.1691969Z [112/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu.o
2025-05-07T20:09:21.1702346Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:09:21.1703747Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.1704777Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.1705149Z                             ^
2025-05-07T20:09:21.1705293Z 
2025-05-07T20:09:21.1705496Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:21.1705803Z 
2025-05-07T20:09:21.1706560Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.1707603Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:09:21.1707958Z                             ^
2025-05-07T20:09:21.1708098Z 
2025-05-07T20:09:21.1708831Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.1709853Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.1710298Z                             ^
2025-05-07T20:09:21.1710508Z           detected during:
2025-05-07T20:09:21.1723519Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.1748298Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.1773222Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.1787269Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.1788319Z 
2025-05-07T20:09:21.1788531Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:21.1788829Z 
2025-05-07T20:09:21.1789565Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.1790563Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.1790888Z                  ^
2025-05-07T20:09:21.1791059Z           detected during:
2025-05-07T20:09:21.1803306Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:21.1828024Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.1852897Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.1877763Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.1891885Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.1892978Z 
2025-05-07T20:09:21.1893723Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.1894751Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.1895158Z                             ^
2025-05-07T20:09:21.1895360Z           detected during:
2025-05-07T20:09:21.1908133Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.1932521Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.1957560Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.1971658Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.1972711Z 
2025-05-07T20:09:21.1972916Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:21.1973218Z 
2025-05-07T20:09:21.1973956Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.1974960Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.1975285Z                  ^
2025-05-07T20:09:21.1975455Z           detected during:
2025-05-07T20:09:21.1987579Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:21.2012391Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.2036998Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.2061743Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.2075908Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.2077001Z 
2025-05-07T20:09:21.2077734Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.2078763Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.2079120Z                             ^
2025-05-07T20:09:21.2079316Z           detected during:
2025-05-07T20:09:21.2092134Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.2116625Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.2141533Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.2155713Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.2156768Z 
2025-05-07T20:09:21.2156971Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:21.2157274Z 
2025-05-07T20:09:21.2158010Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.2159010Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.2159335Z                  ^
2025-05-07T20:09:21.2159510Z           detected during:
2025-05-07T20:09:21.2171663Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:21.2196481Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.2220783Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.2245965Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.2260085Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.2261142Z 
2025-05-07T20:09:21.2261883Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.2262913Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.2263270Z                             ^
2025-05-07T20:09:21.2263477Z           detected during:
2025-05-07T20:09:21.2276373Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.2300669Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.2325424Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.2339744Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.2340806Z 
2025-05-07T20:09:21.2341012Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:21.2341310Z 
2025-05-07T20:09:21.2342048Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.2343123Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.2343452Z                  ^
2025-05-07T20:09:21.2343620Z           detected during:
2025-05-07T20:09:21.2355904Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:21.2380636Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.2405074Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.2429808Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.2444072Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.2445126Z 
2025-05-07T20:09:21.2445863Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.2446892Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.2447251Z                             ^
2025-05-07T20:09:21.2447455Z           detected during:
2025-05-07T20:09:21.2460422Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.2484885Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.2509595Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.2523764Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.2524879Z 
2025-05-07T20:09:21.2525083Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:21.2525430Z 
2025-05-07T20:09:21.2526182Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.2527179Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.2527506Z                  ^
2025-05-07T20:09:21.2527678Z           detected during:
2025-05-07T20:09:21.2540067Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:21.2564885Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.2589151Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.2613907Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.2627990Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.2629042Z 
2025-05-07T20:09:21.2629773Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.2630800Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.2631156Z                             ^
2025-05-07T20:09:21.2631361Z           detected during:
2025-05-07T20:09:21.2644388Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.2668714Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.2693596Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.2707658Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.2708712Z 
2025-05-07T20:09:21.2708916Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:21.2709215Z 
2025-05-07T20:09:21.2709947Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:21.2710942Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:21.2711270Z                  ^
2025-05-07T20:09:21.2711440Z           detected during:
2025-05-07T20:09:21.2723648Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:09:21.2748583Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:09:21.2773046Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:09:21.2797832Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:09:21.2811886Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu
2025-05-07T20:09:21.2812940Z 
2025-05-07T20:09:42.7435219Z [113/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_cublas.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_cublas.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_cublas.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_cublas.cu.o
2025-05-07T20:09:42.7445809Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:09:57.0013602Z [114/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_blockwise.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_blockwise.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_blockwise.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_blockwise.cu.o
2025-05-07T20:09:57.0023890Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:09:57.0025297Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:57.0026338Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:09:57.0026705Z                             ^
2025-05-07T20:09:57.0026850Z 
2025-05-07T20:09:57.0027077Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:09:57.0027381Z 
2025-05-07T20:09:57.0028147Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:09:57.0029186Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:09:57.0029543Z                             ^
2025-05-07T20:09:57.0029683Z 
2025-05-07T20:09:57.4511306Z [115/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_lite.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_lite.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_lite.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_lite.cu.o
2025-05-07T20:09:57.4521899Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:10:22.6302615Z [116/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise.cu.o
2025-05-07T20:10:22.6312684Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:10:55.9794022Z [117/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu.o
2025-05-07T20:10:55.9804414Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:10:55.9805805Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:55.9806848Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:55.9807217Z                             ^
2025-05-07T20:10:55.9807356Z 
2025-05-07T20:10:55.9807559Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:10:55.9807864Z 
2025-05-07T20:10:55.9808620Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:55.9809667Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:10:55.9810024Z                             ^
2025-05-07T20:10:55.9810159Z 
2025-05-07T20:10:55.9810890Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:55.9811921Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:55.9812284Z                             ^
2025-05-07T20:10:55.9812569Z           detected during:
2025-05-07T20:10:55.9825439Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:55.9850250Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:55.9875198Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:55.9889298Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:55.9890356Z 
2025-05-07T20:10:55.9890564Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:10:55.9890872Z 
2025-05-07T20:10:55.9891613Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:55.9892612Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:55.9892939Z                  ^
2025-05-07T20:10:55.9893115Z           detected during:
2025-05-07T20:10:55.9905251Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
﻿2025-05-07T20:10:55.9947082Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:55.9971916Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:55.9996928Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0011093Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0012146Z 
2025-05-07T20:10:56.0012925Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0013962Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0014323Z                             ^
2025-05-07T20:10:56.0014529Z           detected during:
2025-05-07T20:10:56.0027347Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0052024Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0076987Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0091050Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0092135Z 
2025-05-07T20:10:56.0092336Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:10:56.0092634Z 
2025-05-07T20:10:56.0093380Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0094373Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0094707Z                  ^
2025-05-07T20:10:56.0094883Z           detected during:
2025-05-07T20:10:56.0107020Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:10:56.0131765Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0156512Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0181261Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0195468Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0196523Z 
2025-05-07T20:10:56.0197265Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0198292Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0198657Z                             ^
2025-05-07T20:10:56.0198859Z           detected during:
2025-05-07T20:10:56.0211611Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0235999Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0260936Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0275174Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0276226Z 
2025-05-07T20:10:56.0276431Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:10:56.0276733Z 
2025-05-07T20:10:56.0277476Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0278472Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0278801Z                  ^
2025-05-07T20:10:56.0278975Z           detected during:
2025-05-07T20:10:56.0291129Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:10:56.0316016Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0340636Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0365558Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0379603Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0380656Z 
2025-05-07T20:10:56.0381394Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0382420Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0382779Z                             ^
2025-05-07T20:10:56.0382984Z           detected during:
2025-05-07T20:10:56.0395861Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0420226Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0445223Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0459307Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0460355Z 
2025-05-07T20:10:56.0460610Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:10:56.0460916Z 
2025-05-07T20:10:56.0461661Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0462698Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0463022Z                  ^
2025-05-07T20:10:56.0463195Z           detected during:
2025-05-07T20:10:56.0475408Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:10:56.0500275Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0527385Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0552843Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0566990Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0568045Z 
2025-05-07T20:10:56.0568784Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0569877Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0570237Z                             ^
2025-05-07T20:10:56.0570444Z           detected during:
2025-05-07T20:10:56.0583253Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0607755Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0632601Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0646814Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0647978Z 
2025-05-07T20:10:56.0648184Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:10:56.0648485Z 
2025-05-07T20:10:56.0649299Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0650297Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0650626Z                  ^
2025-05-07T20:10:56.0650796Z           detected during:
2025-05-07T20:10:56.0662979Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:10:56.0687854Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0712234Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0737121Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0751237Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0752350Z 
2025-05-07T20:10:56.0753089Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0754118Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0754483Z                             ^
2025-05-07T20:10:56.0754687Z           detected during:
2025-05-07T20:10:56.0767449Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0791857Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0816643Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0830722Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0831830Z 
2025-05-07T20:10:56.0832056Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:10:56.0832362Z 
2025-05-07T20:10:56.0833097Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:10:56.0834100Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:10:56.0834433Z                  ^
2025-05-07T20:10:56.0834604Z           detected during:
2025-05-07T20:10:56.0847108Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:10:56.0871993Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:10:56.0896307Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:10:56.0921105Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<2>, cute::C<4>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:10:56.0935183Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=2, TBS_N=4, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu
2025-05-07T20:10:56.0936230Z 
2025-05-07T20:12:26.6989535Z [118/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_128_128_2_1_1_t_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_128_128_2_1_1_t_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_128_128_2_1_1_t_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_128_128_2_1_1_t_f.cu.o
2025-05-07T20:12:26.7000323Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:12:26.7001855Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:26.7002893Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:26.7003255Z                             ^
2025-05-07T20:12:26.7003397Z 
2025-05-07T20:12:26.7003599Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:26.7003902Z 
2025-05-07T20:12:26.7004665Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:26.7005709Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:12:26.7006067Z                             ^
2025-05-07T20:12:26.7006201Z 
2025-05-07T20:12:37.2479517Z [119/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu.o
2025-05-07T20:12:37.2489808Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:12:37.2491292Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.2492326Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.2492693Z                             ^
2025-05-07T20:12:37.2492830Z 
2025-05-07T20:12:37.2493031Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:37.2493335Z 
2025-05-07T20:12:37.2494089Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.2495137Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:12:37.2495491Z                             ^
2025-05-07T20:12:37.2495636Z 
2025-05-07T20:12:37.2496368Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.2497401Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.2497759Z                             ^
2025-05-07T20:12:37.2497964Z           detected during:
2025-05-07T20:12:37.2510938Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.2535618Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.2561013Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.2575366Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.2576462Z 
2025-05-07T20:12:37.2576673Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:37.2576982Z 
2025-05-07T20:12:37.2577739Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.2578754Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.2579085Z                  ^
2025-05-07T20:12:37.2579262Z           detected during:
2025-05-07T20:12:37.2591563Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:37.2616689Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.2641517Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.2666384Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.2680525Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.2681580Z 
2025-05-07T20:12:37.2682330Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.2683418Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.2683779Z                             ^
2025-05-07T20:12:37.2683981Z           detected during:
2025-05-07T20:12:37.2696844Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.2721330Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.2746236Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.2760407Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.2761456Z 
2025-05-07T20:12:37.2761660Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:37.2762016Z 
2025-05-07T20:12:37.2762756Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.2763753Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.2764080Z                  ^
2025-05-07T20:12:37.2764248Z           detected during:
2025-05-07T20:12:37.2776313Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:37.2801069Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.2825349Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.2850336Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.2864473Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.2865523Z 
2025-05-07T20:12:37.2866310Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.2867333Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.2867695Z                             ^
2025-05-07T20:12:37.2867894Z           detected during:
2025-05-07T20:12:37.2880743Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.2905089Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.2929795Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.2944011Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.2945057Z 
2025-05-07T20:12:37.2945262Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:37.2945558Z 
2025-05-07T20:12:37.2946295Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.2947292Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.2947616Z                  ^
2025-05-07T20:12:37.2947791Z           detected during:
2025-05-07T20:12:37.2960021Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:37.2984698Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.3009017Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.3033805Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.3047995Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.3049043Z 
2025-05-07T20:12:37.3049783Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.3050811Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.3051170Z                             ^
2025-05-07T20:12:37.3051373Z           detected during:
2025-05-07T20:12:37.3064144Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.3088655Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.3113336Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.3127355Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.3128399Z 
2025-05-07T20:12:37.3128601Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:37.3128902Z 
2025-05-07T20:12:37.3129638Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.3130637Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.3130958Z                  ^
2025-05-07T20:12:37.3131131Z           detected during:
2025-05-07T20:12:37.3143412Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:37.3168530Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.3192864Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.3217590Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.3231647Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.3232755Z 
2025-05-07T20:12:37.3233493Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.3234518Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.3234874Z                             ^
2025-05-07T20:12:37.3235075Z           detected during:
2025-05-07T20:12:37.3248035Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.3272458Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.3297141Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.3311152Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.3312250Z 
2025-05-07T20:12:37.3312506Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:37.3312804Z 
2025-05-07T20:12:37.3313557Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.3314549Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.3314874Z                  ^
2025-05-07T20:12:37.3315118Z           detected during:
2025-05-07T20:12:37.3327226Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:37.3352176Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.3376519Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.3401323Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.3415500Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.3416609Z 
2025-05-07T20:12:37.3417349Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.3418371Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.3418726Z                             ^
2025-05-07T20:12:37.3418929Z           detected during:
2025-05-07T20:12:37.3431727Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.3456177Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.3480902Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.3495055Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.3496112Z 
2025-05-07T20:12:37.3496315Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:37.3496610Z 
2025-05-07T20:12:37.3497345Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:37.3498397Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:37.3498736Z                  ^
2025-05-07T20:12:37.3498901Z           detected during:
2025-05-07T20:12:37.3511026Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:37.3535786Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:37.3560270Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:37.3584995Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:37.3599145Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=true]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu
2025-05-07T20:12:37.3600192Z 
2025-05-07T20:12:38.3610065Z [120/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu.o
2025-05-07T20:12:38.3620350Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:12:38.3621750Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.3622783Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.3623148Z                             ^
2025-05-07T20:12:38.3623448Z 
2025-05-07T20:12:38.3623656Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:38.3623957Z 
2025-05-07T20:12:38.3624718Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.3625758Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:12:38.3626109Z                             ^
2025-05-07T20:12:38.3626247Z 
2025-05-07T20:12:38.3626982Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.3628006Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.3628365Z                             ^
2025-05-07T20:12:38.3628565Z           detected during:
2025-05-07T20:12:38.3641730Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.3666075Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.3690849Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.3704934Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.3705990Z 
2025-05-07T20:12:38.3706194Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:38.3706496Z 
2025-05-07T20:12:38.3707227Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.3708223Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.3708548Z                  ^
2025-05-07T20:12:38.3708723Z           detected during:
2025-05-07T20:12:38.3720904Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:38.3745772Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.3770147Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.3794894Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.3808939Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.3809996Z 
2025-05-07T20:12:38.3810737Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.3811766Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.3812127Z                             ^
2025-05-07T20:12:38.3812332Z           detected during:
2025-05-07T20:12:38.3825078Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.3849608Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.3874378Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.3888337Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.3889388Z 
2025-05-07T20:12:38.3889589Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:38.3889885Z 
2025-05-07T20:12:38.3890624Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.3891621Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.3892044Z                  ^
2025-05-07T20:12:38.3892214Z           detected during:
2025-05-07T20:12:38.3904439Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:38.3929245Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.3953723Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.3978487Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.3992588Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.3993684Z 
2025-05-07T20:12:38.3994427Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.3995452Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.3995814Z                             ^
2025-05-07T20:12:38.3996070Z           detected during:
2025-05-07T20:12:38.4008796Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.4033073Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.4057821Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.4071930Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.4073034Z 
2025-05-07T20:12:38.4073243Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:38.4073537Z 
2025-05-07T20:12:38.4074275Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.4075266Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.4075590Z                  ^
2025-05-07T20:12:38.4075761Z           detected during:
2025-05-07T20:12:38.4087851Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:38.4112519Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.4136953Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.4161646Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.4175724Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.4176769Z 
2025-05-07T20:12:38.4177505Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.4178573Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.4178940Z                             ^
2025-05-07T20:12:38.4179136Z           detected during:
2025-05-07T20:12:38.4191904Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.4216098Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.4241003Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.4255074Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.4256117Z 
2025-05-07T20:12:38.4256326Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:38.4256626Z 
2025-05-07T20:12:38.4257359Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.4258358Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.4258681Z                  ^
2025-05-07T20:12:38.4258858Z           detected during:
2025-05-07T20:12:38.4270972Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:38.4295709Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.4320031Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.4344808Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.4358959Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.4360020Z 
2025-05-07T20:12:38.4360758Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.4361789Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.4362144Z                             ^
2025-05-07T20:12:38.4362344Z           detected during:
2025-05-07T20:12:38.4375039Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.4399315Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.4423824Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.4437983Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.4439031Z 
2025-05-07T20:12:38.4439232Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:38.4439557Z 
2025-05-07T20:12:38.4440293Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.4441400Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.4441725Z                  ^
2025-05-07T20:12:38.4441898Z           detected during:
2025-05-07T20:12:38.4454014Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:38.4478821Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.4503015Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.4527725Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.4541895Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.4542954Z 
2025-05-07T20:12:38.4543696Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.4544812Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.4545173Z                             ^
2025-05-07T20:12:38.4545373Z           detected during:
2025-05-07T20:12:38.4567035Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.4591443Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.4616189Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.4630223Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.4631324Z 
2025-05-07T20:12:38.4631528Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:38.4631898Z 
2025-05-07T20:12:38.4632699Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(729): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:38.4633705Z           return observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:38.4634032Z                  ^
2025-05-07T20:12:38.4634205Z           detected during:
2025-05-07T20:12:38.4646529Z             instantiation of "auto cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::load_init(const ProblemShape_MNKL &, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<Stages, SchedulerPipelineStageCount, AccumulatorPipelineStageCount, ClusterShape>, TileShape_, ElementPairA_, StridePairA_, ElementPairB_, StridePairB_, TiledMma_, GmemTiledCopyPairA_, SmemLayoutAtomPairA_, SmemCopyAtomA_, TransformA_, GmemTiledCopyPairB_, SmemLayoutAtomPairB_, SmemCopyAtomB_, TransformB_>::TensorStorage &) const [with Stages=6, SchedulerPipelineStageCount=3, AccumulatorPipelineStageCount=1, ClusterShape=cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>, TileShape_=cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, ElementPairA_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairA_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, ElementPairB_=cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, StridePairB_=cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, TiledMma_=cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, GmemTiledCopyPairA_=cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, SmemLayoutAtomPairA_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, SmemCopyAtomA_=void, TransformA_=cute::identity, GmemTiledCopyPairB_=cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, SmemLayoutAtomPairB_=cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, SmemCopyAtomB_=void, TransformB_=cute::identity, ProblemShape_MNKL=cute::tuple<int, int, int, int>]" at line 595 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/kernel/sm100_gemm_tma_warpspecialized.hpp
2025-05-07T20:12:38.4671380Z             instantiation of "void cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::operator()(const cutlass::gemm::kernel::GemmUniversal<ProblemShape_, CollectiveMainloop_, CollectiveEpilogue_, TileSchedulerTag_, std::enable_if_t<std::disjunction_v, void>>::Params &, char *) [with ProblemShape_=cute::tuple<int, int, int, int>, CollectiveMainloop_=cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, CollectiveEpilogue_=cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, TileSchedulerTag_=void]" at line 122 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/device_kernel.h
2025-05-07T20:12:38.4695763Z             instantiation of "void cutlass::device_kernel<Operator>(Operator::Params) [with Operator=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 340 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/device/gemm_universal_adapter.h
2025-05-07T20:12:38.4720546Z             instantiation of "cutlass::Status cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::initialize(const cutlass::gemm::device::GemmUniversalAdapter<GemmKernel_, std::enable_if_t<cutlass::gemm::detail::IsCutlass3GemmKernel<cutlass::GetUnderlyingKernel_t<GemmKernel_>, void>::value, void>>::Arguments &, void *, cudaStream_t, cutlass::CudaHostAdapter *) [with GemmKernel_=cutlass::gemm::kernel::GemmUniversal<cute::tuple<int, int, int, int>, cutlass::gemm::collective::CollectiveMma<cutlass::gemm::MainloopSm100TmaUmmaWarpSpecializedBlockScaled<6, 3, 1, cute::tuple<cute::C<4>, cute::C<1>, cute::C<1>>>, cute::tuple<cute::C<256>, cute::C<256>, cute::C<128>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::tuple<cutlass::float_e2m1_t, cutlass::float_ue4m3_t>, cute::tuple<cute::tuple<int64_t, cute::C<1>, int64_t>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::_1, int32_t>>, cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, int32_t>, cute::tuple<cute::tuple<cute::C<0>, cute::C<1>>, cute::_512>, cute::tuple<cute::C<0>, int32_t>>>>, cute::TiledMMA<cute::MMA_Atom<cute::SM100_MMA_MXF4_2x1SM_SS<cutlass::float_e2m1_t, cutlass::float_e2m1_t, float, cutlass::float_ue4m3_t, 256, 256, 16, cute::UMMA::Major::K, cute::UMMA::Major::K, cute::UMMA::ScaleIn::One, cute::UMMA::ScaleIn::One>>, cute::Layout<cute::tuple<cute::_1, cute::_1, cute::_1>, cute::tuple<cute::C<0>, cute::C<0>, cute::C<0>>>, cute::tuple<cute::Underscore, cute::Underscore, cute::Underscore>>, cute::tuple<cute::SM100_TMA_2SM_LOAD, cute::SM100_TMA_2SM_LOAD>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<1>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<512>>>>>, void, cute::identity, cute::tuple<cute::SM100_TMA_2SM_LOAD_MULTICAST, cute::SM100_TMA_2SM_LOAD_MULTICAST>, cute::tuple<cute::ComposedLayout<cute::Swizzle<2, 4, 3>, cute::smem_ptr_flag_bits<4>, cute::Layout<cute::tuple<cute::_8, cute::_128>, cute::tuple<cute::_128, cute::_1>>>, cute::Layout<cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_32, cute::_4>, cute::C<2>>, cute::tuple<cute::_16, cute::_4>>, cute::_1, cute::tuple<cute::_1, cute::_2>>, cute::tuple<cute::tuple<cute::tuple<cute::tuple<cute::_16, cute::_4>, cute::C<512>>, cute::tuple<cute::C<0>, cute::C<1>>>, cute::_0, cute::tuple<cute::C<4>, cute::C<1024>>>>>, void, cute::identity>, cutlass::epilogue::collective::CollectiveEpilogue<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::bfloat16_t, cute::tuple<cute::C<1>, int64_t, int64_t>, cutlass::epilogue::fusion::FusionCallbacks<cutlass::epilogue::Sm100TmaWarpSpecialized<3, 2, 128, true, false>, cutlass::epilogue::fusion::LinearCombination<cutlass::bfloat16_t, float, cutlass::bfloat16_t, float, cutlass::FloatRoundStyle::round_to_nearest>, cute::tuple<cute::C<128>, cute::C<256>, cute::C<128>>, cute::tuple<cute::_128, cute::_128>>, cute::SM100_TMEM_LOAD_16dp256b16x, cute::SM90_TMA_LOAD, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM75_U16x8_LDSM_T, cute::SM90_TMA_STORE, cute::ComposedLayout<cute::Swizzle<3, 4, 3>, cute::smem_ptr_flag_bits<16>, cute::Layout<cute::tuple<cute::C<64>, cute::C<8>>, cute::tuple<cute::_1, cute::C<64>>>>, cute::SM90_U16x8_STSM_T, cute::AutoVectorizingCopyWithAssumedAlignment<128>>, void, void>]" at line 220 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_common.cuh
2025-05-07T20:12:38.4734653Z             instantiation of "at::Tensor _f4f4bf16<TB_M,TB_N,TBS_M,TBS_N,TBS_K,USE_MX>(at::Tensor, at::Tensor, at::Tensor, at::Tensor, at::Tensor) [with TB_M=256, TB_N=256, TBS_M=4, TBS_N=1, TBS_K=1, USE_MX=false]" at line 22 of /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu
2025-05-07T20:12:38.4735705Z 
2025-05-07T20:12:53.8541060Z [121/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_128_128_1_1_1_f_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_128_128_1_1_1_f_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_128_128_1_1_1_f_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_128_128_1_1_1_f_f.cu.o
2025-05-07T20:12:53.8551853Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:12:53.8553267Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:53.8554304Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:12:53.8554670Z                             ^
2025-05-07T20:12:53.8554807Z 
2025-05-07T20:12:53.8555015Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:12:53.8555346Z 
2025-05-07T20:12:53.8556106Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:12:53.8557321Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:12:53.8557675Z                             ^
2025-05-07T20:12:53.8557810Z 
2025-05-07T20:13:07.1959570Z [122/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_16_128_1_1_1_f_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_16_128_1_1_1_f_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_16_128_1_1_1_f_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_16_128_1_1_1_f_f.cu.o
2025-05-07T20:13:07.1970070Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:13:07.1971465Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:13:07.1972496Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:13:07.1972858Z                             ^
2025-05-07T20:13:07.1972994Z 
2025-05-07T20:13:07.1973216Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:13:07.1973521Z 
2025-05-07T20:13:07.1974282Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:13:07.1975461Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:13:07.1975815Z                             ^
2025-05-07T20:13:07.1975953Z 
2025-05-07T20:13:17.0133453Z [123/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_2_1_1_f_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_2_1_1_f_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_2_1_1_f_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_2_1_1_f_t.cu.o
2025-05-07T20:13:17.0146058Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:13:17.0147479Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:13:17.0148519Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:13:17.0148876Z                             ^
2025-05-07T20:13:17.0149049Z 
2025-05-07T20:13:17.0149251Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:13:17.0149550Z 
2025-05-07T20:13:17.0150315Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:13:17.0151363Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:13:17.0152077Z                             ^
2025-05-07T20:13:17.0152218Z 
2025-05-07T20:13:17.0157676Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi2EEENSA_ILi1EEESC_EEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEESJ_SK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E4M3_SS_TNILNSO_7ScaleInE1ELSQ_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESV_SV_EEEEENS5_IJNS4_10UnderscoreESY_SY_EEEEENS4_13SM90_TMA_LOADENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENST_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityENS4_23SM90_TMA_LOAD_MULTICASTES1B_vS1C_EENS_8epilogue10collective18CollectiveEpilogueINS1F_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1M_NS1F_6fusion15Sm90TreeVisitorINS1O_11Sm90ComputeINS_10multipliesES1N_fLNS_15FloatRoundStyleE2EvEEJNS1O_16Sm90ColBroadcastILi0ESI_ffNS5_IJSC_SV_SV_EEELi4ELb1EEENS1P_INS1Q_IS1R_ffLS1S_2EvEEJNS1O_16Sm90RowBroadcastILi0ESI_ffNS5_IJSV_SC_SV_EEELi4ELb1EEENS1O_12Sm90AccFetchEEEEEEES11_NS12_IS14_NS15_ILi16EEENST_INS5_IJNSA_ILi64EEES17_EEENS5_IJSC_S25_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES29_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:17.0169044Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi2EEENSA_ILi1EEESC_EEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEENS_12float_e5m2_tESK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E5M2_SS_TNILNSP_7ScaleInE1ELSR_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESW_SW_EEEEENS5_IJNS4_10UnderscoreESZ_SZ_EEEEENS4_13SM90_TMA_LOADENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENSU_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityENS4_23SM90_TMA_LOAD_MULTICASTES1C_vS1D_EENS_8epilogue10collective18CollectiveEpilogueINS1G_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1N_NS1G_6fusion15Sm90TreeVisitorINS1P_11Sm90ComputeINS_10multipliesES1O_fLNS_15FloatRoundStyleE2EvEEJNS1P_16Sm90ColBroadcastILi0ESI_ffNS5_IJSC_SW_SW_EEELi4ELb1EEENS1Q_INS1R_IS1S_ffLS1T_2EvEEJNS1P_16Sm90RowBroadcastILi0ESI_ffNS5_IJSW_SC_SW_EEELi4ELb1EEENS1P_12Sm90AccFetchEEEEEEES12_NS13_IS15_NS16_ILi16EEENSU_INS5_IJNSA_ILi64EEES18_EEENS5_IJSC_S26_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2A_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:17.0180367Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi2EEENSA_ILi1EEESC_EEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEESJ_SK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E4M3_SS_TNILNSO_7ScaleInE1ELSQ_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESV_SV_EEEEENS5_IJNS4_10UnderscoreESY_SY_EEEEENS4_13SM90_TMA_LOADENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENST_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityENS4_23SM90_TMA_LOAD_MULTICASTES1B_vS1C_EENS_8epilogue10collective18CollectiveEpilogueINS1F_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1M_NS1F_6fusion15Sm90TreeVisitorINS1O_11Sm90ComputeINS_4plusES1N_fLNS_15FloatRoundStyleE2EvEEJNS1O_16Sm90ColBroadcastILi0ESI_ffNS5_IJSC_SV_SV_EEELi4ELb1EEENS1P_INS1Q_INS_10multipliesEffLS1S_2EvEEJS1W_NS1P_IS1Y_JNS1O_16Sm90RowBroadcastILi0ESI_ffNS5_IJSV_SC_SV_EEELi4ELb1EEENS1O_12Sm90AccFetchEEEEEEEEEES11_NS12_IS14_NS15_ILi16EEENST_INS5_IJNSA_ILi64EEES17_EEENS5_IJSC_S27_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2B_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:17.0191806Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi2EEENSA_ILi1EEESC_EEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEENS_12float_e5m2_tESK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E5M2_SS_TNILNSP_7ScaleInE1ELSR_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESW_SW_EEEEENS5_IJNS4_10UnderscoreESZ_SZ_EEEEENS4_13SM90_TMA_LOADENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENSU_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityENS4_23SM90_TMA_LOAD_MULTICASTES1C_vS1D_EENS_8epilogue10collective18CollectiveEpilogueINS1G_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1N_NS1G_6fusion15Sm90TreeVisitorINS1P_11Sm90ComputeINS_4plusES1O_fLNS_15FloatRoundStyleE2EvEEJNS1P_16Sm90ColBroadcastILi0ESI_ffNS5_IJSC_SW_SW_EEELi4ELb1EEENS1Q_INS1R_INS_10multipliesEffLS1T_2EvEEJS1X_NS1Q_IS1Z_JNS1P_16Sm90RowBroadcastILi0ESI_ffNS5_IJSW_SC_SW_EEELi4ELb1EEENS1P_12Sm90AccFetchEEEEEEEEEES12_NS13_IS15_NS16_ILi16EEENSU_INS5_IJNSA_ILi64EEES18_EEENS5_IJSC_S28_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2C_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:17.0203456Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi2EEENSA_ILi1EEESC_EEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEESJ_SK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E4M3_SS_TNILNSO_7ScaleInE1ELSQ_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESV_SV_EEEEENS5_IJNS4_10UnderscoreESY_SY_EEEEENS4_13SM90_TMA_LOADENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENST_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityENS4_23SM90_TMA_LOAD_MULTICASTES1B_vS1C_EENS_8epilogue10collective18CollectiveEpilogueINS1F_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1M_NS1F_6fusion15Sm90TreeVisitorINS1O_11Sm90ComputeINS_4plusES1N_S1N_LNS_15FloatRoundStyleE2EvEEJNS1O_16Sm90ColBroadcastILi0ESI_S1N_S1N_NS5_IJSC_SV_SV_EEELi8ELb1EEENS1P_INS1Q_INS_10multipliesES1N_fLS1S_2EvEEJNS1U_ILi0ESI_ffS1V_Li4ELb1EEENS1P_INS1Q_IS1X_ffLS1S_2EvEEJNS1O_16Sm90RowBroadcastILi0ESI_ffNS5_IJSV_SC_SV_EEELi4ELb1EEENS1O_12Sm90AccFetchEEEEEEEEEES11_NS12_IS14_NS15_ILi16EEENST_INS5_IJNSA_ILi64EEES17_EEENS5_IJSC_S29_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2D_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:17.0215114Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi2EEENSA_ILi1EEESC_EEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEENS_12float_e5m2_tESK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E5M2_SS_TNILNSP_7ScaleInE1ELSR_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESW_SW_EEEEENS5_IJNS4_10UnderscoreESZ_SZ_EEEEENS4_13SM90_TMA_LOADENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENSU_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityENS4_23SM90_TMA_LOAD_MULTICASTES1C_vS1D_EENS_8epilogue10collective18CollectiveEpilogueINS1G_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1N_NS1G_6fusion15Sm90TreeVisitorINS1P_11Sm90ComputeINS_4plusES1O_S1O_LNS_15FloatRoundStyleE2EvEEJNS1P_16Sm90ColBroadcastILi0ESI_S1O_S1O_NS5_IJSC_SW_SW_EEELi8ELb1EEENS1Q_INS1R_INS_10multipliesES1O_fLS1T_2EvEEJNS1V_ILi0ESI_ffS1W_Li4ELb1EEENS1Q_INS1R_IS1Y_ffLS1T_2EvEEJNS1P_16Sm90RowBroadcastILi0ESI_ffNS5_IJSW_SC_SW_EEELi4ELb1EEENS1P_12Sm90AccFetchEEEEEEEEEES12_NS13_IS15_NS16_ILi16EEENSU_INS5_IJNSA_ILi64EEES18_EEENS5_IJSC_S2A_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2E_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:30.3237283Z [124/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_4_4_1_f_t.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_4_4_1_f_t.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_4_4_1_f_t.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_4_4_1_f_t.cu.o
2025-05-07T20:13:30.3247858Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:13:30.3249250Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:13:30.3250282Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:13:30.3250644Z                             ^
2025-05-07T20:13:30.3250781Z 
2025-05-07T20:13:30.3250988Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:13:30.3251289Z 
2025-05-07T20:13:30.3252048Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:13:30.3253094Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:13:30.3253452Z                             ^
2025-05-07T20:13:30.3253588Z 
2025-05-07T20:13:30.3259204Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi4EEESB_NSA_ILi1EEEEEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEESJ_SK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E4M3_SS_TNILNSO_7ScaleInE1ELSQ_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESV_SV_EEEEENS5_IJNS4_10UnderscoreESY_SY_EEEEENS4_23SM90_TMA_LOAD_MULTICASTENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENST_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityES11_S1B_vS1C_EENS_8epilogue10collective18CollectiveEpilogueINS1E_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1L_NS1E_6fusion15Sm90TreeVisitorINS1N_11Sm90ComputeINS_10multipliesES1M_fLNS_15FloatRoundStyleE2EvEEJNS1N_16Sm90ColBroadcastILi0ESI_ffNS5_IJSC_SV_SV_EEELi4ELb1EEENS1O_INS1P_IS1Q_ffLS1R_2EvEEJNS1N_16Sm90RowBroadcastILi0ESI_ffNS5_IJSV_SC_SV_EEELi4ELb1EEENS1N_12Sm90AccFetchEEEEEEENS4_13SM90_TMA_LOADENS12_IS14_NS15_ILi16EEENST_INS5_IJNSA_ILi64EEES17_EEENS5_IJSC_S25_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES29_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:30.3270430Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi4EEESB_NSA_ILi1EEEEEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEENS_12float_e5m2_tESK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E5M2_SS_TNILNSP_7ScaleInE1ELSR_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESW_SW_EEEEENS5_IJNS4_10UnderscoreESZ_SZ_EEEEENS4_23SM90_TMA_LOAD_MULTICASTENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENSU_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityES12_S1C_vS1D_EENS_8epilogue10collective18CollectiveEpilogueINS1F_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1M_NS1F_6fusion15Sm90TreeVisitorINS1O_11Sm90ComputeINS_10multipliesES1N_fLNS_15FloatRoundStyleE2EvEEJNS1O_16Sm90ColBroadcastILi0ESI_ffNS5_IJSC_SW_SW_EEELi4ELb1EEENS1P_INS1Q_IS1R_ffLS1S_2EvEEJNS1O_16Sm90RowBroadcastILi0ESI_ffNS5_IJSW_SC_SW_EEELi4ELb1EEENS1O_12Sm90AccFetchEEEEEEENS4_13SM90_TMA_LOADENS13_IS15_NS16_ILi16EEENSU_INS5_IJNSA_ILi64EEES18_EEENS5_IJSC_S26_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2A_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:30.3281862Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi4EEESB_NSA_ILi1EEEEEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEESJ_SK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E4M3_SS_TNILNSO_7ScaleInE1ELSQ_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESV_SV_EEEEENS5_IJNS4_10UnderscoreESY_SY_EEEEENS4_23SM90_TMA_LOAD_MULTICASTENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENST_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityES11_S1B_vS1C_EENS_8epilogue10collective18CollectiveEpilogueINS1E_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1L_NS1E_6fusion15Sm90TreeVisitorINS1N_11Sm90ComputeINS_4plusES1M_fLNS_15FloatRoundStyleE2EvEEJNS1N_16Sm90ColBroadcastILi0ESI_ffNS5_IJSC_SV_SV_EEELi4ELb1EEENS1O_INS1P_INS_10multipliesEffLS1R_2EvEEJS1V_NS1O_IS1X_JNS1N_16Sm90RowBroadcastILi0ESI_ffNS5_IJSV_SC_SV_EEELi4ELb1EEENS1N_12Sm90AccFetchEEEEEEEEEENS4_13SM90_TMA_LOADENS12_IS14_NS15_ILi16EEENST_INS5_IJNSA_ILi64EEES17_EEENS5_IJSC_S27_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2B_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:30.3293365Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi4EEESB_NSA_ILi1EEEEEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEENS_12float_e5m2_tESK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E5M2_SS_TNILNSP_7ScaleInE1ELSR_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESW_SW_EEEEENS5_IJNS4_10UnderscoreESZ_SZ_EEEEENS4_23SM90_TMA_LOAD_MULTICASTENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENSU_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityES12_S1C_vS1D_EENS_8epilogue10collective18CollectiveEpilogueINS1F_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1M_NS1F_6fusion15Sm90TreeVisitorINS1O_11Sm90ComputeINS_4plusES1N_fLNS_15FloatRoundStyleE2EvEEJNS1O_16Sm90ColBroadcastILi0ESI_ffNS5_IJSC_SW_SW_EEELi4ELb1EEENS1P_INS1Q_INS_10multipliesEffLS1S_2EvEEJS1W_NS1P_IS1Y_JNS1O_16Sm90RowBroadcastILi0ESI_ffNS5_IJSW_SC_SW_EEELi4ELb1EEENS1O_12Sm90AccFetchEEEEEEEEEENS4_13SM90_TMA_LOADENS13_IS15_NS16_ILi16EEENSU_INS5_IJNSA_ILi64EEES18_EEENS5_IJSC_S28_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2C_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:30.3304887Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi4EEESB_NSA_ILi1EEEEEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEESJ_SK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E4M3_SS_TNILNSO_7ScaleInE1ELSQ_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESV_SV_EEEEENS5_IJNS4_10UnderscoreESY_SY_EEEEENS4_23SM90_TMA_LOAD_MULTICASTENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENST_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityES11_S1B_vS1C_EENS_8epilogue10collective18CollectiveEpilogueINS1E_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1L_NS1E_6fusion15Sm90TreeVisitorINS1N_11Sm90ComputeINS_4plusES1M_S1M_LNS_15FloatRoundStyleE2EvEEJNS1N_16Sm90ColBroadcastILi0ESI_S1M_S1M_NS5_IJSC_SV_SV_EEELi8ELb1EEENS1O_INS1P_INS_10multipliesES1M_fLS1R_2EvEEJNS1T_ILi0ESI_ffS1U_Li4ELb1EEENS1O_INS1P_IS1W_ffLS1R_2EvEEJNS1N_16Sm90RowBroadcastILi0ESI_ffNS5_IJSV_SC_SV_EEELi4ELb1EEENS1N_12Sm90AccFetchEEEEEEEEEENS4_13SM90_TMA_LOADENS12_IS14_NS15_ILi16EEENST_INS5_IJNSA_ILi64EEES17_EEENS5_IJSC_S29_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2D_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:30.3316776Z ptxas info    : (C7511) Potential Performance Loss: wgmma.mma_async instructions are serialized due to insufficient register resources for the wgmma pipeline in the function '_ZN7cutlass13device_kernelINS_4gemm6kernel13GemmUniversalIN4cute5tupleIJiiiEEENS1_10collective13CollectiveMmaINS1_37MainloopSm90TmaGmmaWarpSpecializedFP8ILi4ENS5_IJNS4_1CILi4EEESB_NSA_ILi1EEEEEENS1_24KernelTmaWarpSpecializedEEENS5_IJNSA_ILi128EEENSA_ILi256EEESG_EEENS_12float_e4m3_tENS5_IJlSC_lEEENS_12float_e5m2_tESK_NS4_8TiledMMAINS4_8MMA_AtomIJNS4_4SM904GMMA31MMA_64x256x32_F32E4M3E5M2_SS_TNILNSP_7ScaleInE1ELSR_1EEEEEENS4_6LayoutINS5_IJSC_SC_SC_EEENS5_IJNSA_ILi0EEESW_SW_EEEEENS5_IJNS4_10UnderscoreESZ_SZ_EEEEENS4_23SM90_TMA_LOAD_MULTICASTENS4_14ComposedLayoutINS4_7SwizzleILi3ELi4ELi3EEENS4_18smem_ptr_flag_bitsILi8EEENSU_INS5_IJNSA_ILi8EEESG_EEENS5_IJSG_SC_EEEEEEEvNS4_8identityES12_S1C_vS1D_EENS_8epilogue10collective18CollectiveEpilogueINS1F_22Sm90TmaWarpSpecializedILi4ELi2ELi16ELb0ELb1EEEJSI_NS5_IJSG_NSA_ILi32EEEEEEvNS5_IJSC_llEEENS_10bfloat16_tES1M_NS1F_6fusion15Sm90TreeVisitorINS1O_11Sm90ComputeINS_4plusES1N_S1N_LNS_15FloatRoundStyleE2EvEEJNS1O_16Sm90ColBroadcastILi0ESI_S1N_S1N_NS5_IJSC_SW_SW_EEELi8ELb1EEENS1P_INS1Q_INS_10multipliesES1N_fLS1S_2EvEEJNS1U_ILi0ESI_ffS1V_Li4ELb1EEENS1P_INS1Q_IS1X_ffLS1S_2EvEEJNS1O_16Sm90RowBroadcastILi0ESI_ffNS5_IJSW_SC_SW_EEELi4ELb1EEENS1O_12Sm90AccFetchEEEEEEEEEENS4_13SM90_TMA_LOADENS13_IS15_NS16_ILi16EEENSU_INS5_IJNSA_ILi64EEES18_EEENS5_IJSC_S2A_EEEEEEENS4_17SM75_U16x8_LDSM_TENS4_14SM90_TMA_STOREES2E_NS4_17SM90_U16x8_STSM_TENS4_9Copy_AtomIJNS4_17SM90_U32x4_STSM_NENS_6half_tEEEEvEEEvvEEEEvNT_6ParamsE'
2025-05-07T20:13:55.1158254Z [125/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_1_1_1_f_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_1_1_1_f_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_1_1_1_f_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_1_1_1_f_f.cu.o
2025-05-07T20:13:55.1168883Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:13:55.1170271Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:13:55.1171425Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:13:55.1171787Z                             ^
2025-05-07T20:13:55.1171924Z 
2025-05-07T20:13:55.1172126Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:13:55.1172423Z 
2025-05-07T20:13:55.1173283Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:13:55.1174322Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:13:55.1174679Z                             ^
2025-05-07T20:13:55.1174812Z 
2025-05-07T20:14:24.2735958Z [126/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_cluster_size_and_transpose.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_cluster_size_and_transpose.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_cluster_size_and_transpose.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_cluster_size_and_transpose.cu.o
2025-05-07T20:14:24.2747278Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:14:24.2748806Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:14:24.2749839Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:14:24.2750196Z                             ^
2025-05-07T20:14:24.2750336Z 
2025-05-07T20:14:24.2750537Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:14:24.2750943Z 
2025-05-07T20:14:24.2751712Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:14:24.2752835Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:14:24.2753192Z                             ^
2025-05-07T20:14:24.2753328Z 
2025-05-07T20:14:35.6837486Z [127/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_tile_size.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_tile_size.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_tile_size.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_tile_size.cu.o
2025-05-07T20:14:35.6848325Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:14:35.6849721Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:14:35.6850853Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:14:35.6851207Z                             ^
2025-05-07T20:14:35.6851344Z 
2025-05-07T20:14:35.6851547Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:14:35.6851847Z 
2025-05-07T20:14:35.6852719Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:14:35.6853761Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:14:35.6854113Z                             ^
2025-05-07T20:14:35.6854246Z 
2025-05-07T20:14:44.8892321Z [128/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched.cu.o
2025-05-07T20:14:44.8902858Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:14:44.8904265Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:14:44.8905394Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:14:44.8905763Z                             ^
2025-05-07T20:14:44.8905898Z 
2025-05-07T20:14:44.8906100Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:14:44.8906401Z 
2025-05-07T20:14:44.8907267Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:14:44.8908315Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:14:44.8908664Z                             ^
2025-05-07T20:14:44.8908808Z 
2025-05-07T20:15:08.3571407Z [129/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_64_128_2_1_1_f_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_64_128_2_1_1_f_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_64_128_2_1_1_f_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_64_128_2_1_1_f_f.cu.o
2025-05-07T20:15:08.3581887Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:15:08.3583279Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:15:08.3584315Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:15:08.3584799Z                             ^
2025-05-07T20:15:08.3584939Z 
2025-05-07T20:15:08.3585141Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:15:08.3585444Z 
2025-05-07T20:15:08.3586203Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:15:08.3587337Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:15:08.3587706Z                             ^
2025-05-07T20:15:08.3587842Z 
2025-05-07T20:15:14.2248201Z [130/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_32_128_2_1_1_f_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_32_128_2_1_1_f_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_32_128_2_1_1_f_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_32_128_2_1_1_f_f.cu.o
2025-05-07T20:15:14.2258733Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:15:14.2260124Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:15:14.2261153Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:15:14.2261513Z                             ^
2025-05-07T20:15:14.2261783Z 
2025-05-07T20:15:14.2261989Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:15:14.2262289Z 
2025-05-07T20:15:14.2263049Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:15:14.2264083Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:15:14.2264530Z                             ^
2025-05-07T20:15:14.2264665Z 
2025-05-07T20:15:18.4654940Z [131/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_2_1_1_f_f.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_2_1_1_f_f.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_2_1_1_f_f.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_2_1_1_f_f.cu.o
2025-05-07T20:15:18.4665422Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:15:18.4666826Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:15:18.4667859Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:15:18.4668218Z                             ^
2025-05-07T20:15:18.4668355Z 
2025-05-07T20:15:18.4668559Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:15:18.4668988Z 
2025-05-07T20:15:18.4669752Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:15:18.4670794Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:15:18.4671147Z                             ^
2025-05-07T20:15:18.4671280Z 
2025-05-07T20:15:22.7812318Z [132/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/handle_transposition.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/handle_transposition.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/handle_transposition.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/handle_transposition.cu.o
2025-05-07T20:15:22.7822861Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:15:22.7824254Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:15:22.7825287Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:15:22.7825646Z                             ^
2025-05-07T20:15:22.7825784Z 
2025-05-07T20:15:22.7826005Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:15:22.7826304Z 
2025-05-07T20:15:22.7827069Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:15:22.7828230Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:15:22.7828589Z                             ^
2025-05-07T20:15:22.7828723Z 
2025-05-07T20:17:16.5656411Z [133/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/i8i8bf16.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/i8i8bf16.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/i8i8bf16.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/i8i8bf16.cu.o
2025-05-07T20:17:16.5666388Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:17:16.5667810Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:17:16.5668846Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:17:16.5669205Z                             ^
2025-05-07T20:17:16.5669346Z 
2025-05-07T20:17:16.5669553Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:17:16.5669855Z 
2025-05-07T20:17:16.5670614Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:17:16.5671756Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:17:16.5672281Z                             ^
2025-05-07T20:17:16.5672422Z 
2025-05-07T20:17:20.8098463Z [134/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/i8i8bf16_dynamic.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/i8i8bf16_dynamic.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/i8i8bf16_dynamic.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/i8i8bf16_dynamic.cu.o
2025-05-07T20:17:20.8108523Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:17:20.8109917Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:17:20.8110951Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:17:20.8111310Z                             ^
2025-05-07T20:17:20.8111535Z 
2025-05-07T20:17:20.8111758Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:17:20.8112058Z 
2025-05-07T20:17:20.8112822Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:17:20.8113869Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:17:20.8114226Z                             ^
2025-05-07T20:17:20.8114361Z 
2025-05-07T20:17:25.8531708Z [135/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_tensorwise.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_tensorwise.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_tensorwise.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_tensorwise.cu.o
2025-05-07T20:17:25.8542118Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:17:25.8543514Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:17:25.8544537Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:17:25.8544899Z                             ^
2025-05-07T20:17:25.8545036Z 
2025-05-07T20:17:25.8545247Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:17:25.8545549Z 
2025-05-07T20:17:25.8546303Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:17:25.8547348Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:17:25.8547702Z                             ^
2025-05-07T20:17:25.8547843Z 
2025-05-07T20:18:01.7819970Z [136/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched_impl.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched_impl.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched_impl.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched_impl.cu.o
2025-05-07T20:18:01.7830687Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:18:01.7832181Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:18:01.7833225Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:18:01.7833588Z                             ^
2025-05-07T20:18:01.7833725Z 
2025-05-07T20:18:01.7833928Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:18:01.7834232Z 
2025-05-07T20:18:01.7835003Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:18:01.7836041Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:18:01.7836400Z                             ^
2025-05-07T20:18:01.7836750Z 
2025-05-07T20:18:05.5129864Z [137/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_grouped.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_grouped.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8f8bf16_rowwise_grouped.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_grouped.cu.o
2025-05-07T20:18:05.5140346Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:18:05.5141846Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:18:05.5142873Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:18:05.5143235Z                             ^
2025-05-07T20:18:05.5143371Z 
2025-05-07T20:18:05.5143573Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:18:05.5143876Z 
2025-05-07T20:18:05.5144628Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:18:05.5145675Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:18:23.7858118Z                             ^
2025-05-07T20:18:23.7858392Z 
2025-05-07T20:18:23.7867892Z [138/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/include/fast_gemv.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/include/fast_gemv.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/include/fast_gemv.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/include/fast_gemv.cu.o
2025-05-07T20:18:23.7877938Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:18:24.5972416Z [139/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_example_py_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -fopenmp -MD -MT experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/example_nccl.cpp.o -MF experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/example_nccl.cpp.o.d -o experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/example_nccl.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/src/example_nccl.cpp
2025-05-07T20:18:32.2256566Z [140/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/bf16_fast_gemv.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/bf16_fast_gemv.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/bf16_fast_gemv.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/bf16_fast_gemv.cu.o
2025-05-07T20:18:32.2266539Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:18:34.0292783Z [141/153] /opt/rh/gcc-toolset-11/root/usr/bin/c++ -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_example_py_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG -std=c++20 -fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -fopenmp -MD -MT experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/example_ops.cpp.o -MF experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/example_ops.cpp.o.d -o experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/example_ops.cpp.o -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/src/example_ops.cpp
2025-05-07T20:18:37.3317368Z [142/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/bf16fp8bf16_fast_gemv.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/bf16fp8bf16_fast_gemv.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/bf16fp8bf16_fast_gemv.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/bf16fp8bf16_fast_gemv.cu.o
2025-05-07T20:18:37.3327321Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:18:57.3364934Z [143/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_rowwise.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_rowwise.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8i4bf16_rowwise.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_rowwise.cu.o
2025-05-07T20:18:57.3375004Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:18:57.3376395Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:18:57.3377431Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:18:57.3377791Z                             ^
2025-05-07T20:18:57.3377937Z 
2025-05-07T20:18:57.3378137Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:18:57.3378434Z 
2025-05-07T20:18:57.3379311Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:18:57.3380350Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:18:57.3380710Z                             ^
2025-05-07T20:18:57.3380843Z 
2025-05-07T20:19:31.6613282Z [144/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/mixed_dtype_utils.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/mixed_dtype_utils.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/mixed_dtype_utils.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/mixed_dtype_utils.cu.o
2025-05-07T20:19:31.6623392Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:19:34.1296451Z [145/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/fp8fp8bf16_fast_gemv.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/fp8fp8bf16_fast_gemv.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/fast_gemv/fp8fp8bf16_fast_gemv.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/fp8fp8bf16_fast_gemv.cu.o
2025-05-07T20:19:34.1306516Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:20:06.0517190Z [146/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_example_py_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/cutlass_sgemm_nn.cu.o -MF experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/cutlass_sgemm_nn.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/example/src/cutlass_sgemm_nn.cu -o experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/cutlass_sgemm_nn.cu.o
2025-05-07T20:20:06.0526736Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:20:06.3979979Z [147/153] : && /opt/rh/gcc-toolset-11/root/usr/bin/c++ -fPIC -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG  -s -shared -Wl,-soname,fbgemm_gpu_experimental_example_py.so -o experimental/example/fbgemm_gpu_experimental_example_py.so experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/example_nccl.cpp.o experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/example_ops.cpp.o experimental/example/CMakeFiles/fbgemm_gpu_experimental_example_py.dir/src/cutlass_sgemm_nn.cu.o -L/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs   -L/usr/local/cuda-12.8/targets/sbsa-linux/lib -Wl,-rpath,/usr/local/cuda-12.8/lib64:/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib:/usr/local/cuda-12.8/lib64/stubs:/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs:  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so  /usr/local/cuda-12.8/lib64/libnvrtc.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so  /usr/local/cuda-12.8/lib64/stubs/libcuda.so  /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch_cpu.so" -Wl,--as-needed  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so" -Wl,--as-needed  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so  /usr/local/cuda-12.8/lib64/libcudart.so  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch.so" -Wl,--as-needed  -lcudadevrt  -lcudart_static  -lrt  -lpthread  -ldl && :
2025-05-07T20:20:06.4089050Z [148/153] cd /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/experimental/example && bash /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../.github/scripts/fbgemm_gpu_postbuild.bash /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:06.4090529Z ################################################################################
2025-05-07T20:20:06.4090910Z [CMAKE] Running post-build script ...
2025-05-07T20:20:06.4091599Z Target file: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:06.4092280Z Removing all RPATHs ...
2025-05-07T20:20:06.4092499Z ################################################################################
2025-05-07T20:20:37.9011296Z [149/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_shuffled.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_shuffled.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8i4bf16_shuffled.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_shuffled.cu.o
2025-05-07T20:20:37.9021621Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:20:37.9023150Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:20:37.9024192Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:20:37.9024656Z                             ^
2025-05-07T20:20:37.9024809Z 
2025-05-07T20:20:37.9025015Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:20:37.9025315Z 
2025-05-07T20:20:37.9026079Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:20:37.9027219Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:20:37.9027586Z                             ^
2025-05-07T20:20:37.9027720Z 
2025-05-07T20:20:43.1340692Z [150/153] /usr/local/cuda-12.8/bin/nvcc -forward-unknown-to-host-compiler -DUSE_C10D_GLOO -DUSE_C10D_NCCL -DUSE_DISTRIBUTED -DUSE_RPC -DUSE_TENSORPIPE -Dfbgemm_gpu_experimental_gen_ai_EXPORTS -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/asmjit/src -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cpuinfo/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/tools/util/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/composable_kernel/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/json/include -I/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include -isystem /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /usr/local/cuda-12.8/include -DONNX_NAMESPACE=onnx_c2 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_90,code=sm_90 -gencode arch=compute_90a,code=sm_90a -gencode arch=compute_100a,code=sm_100a -gencode arch=compute_120a,code=sm_120a -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --expt-relaxed-constexpr --expt-extended-lambda -O3 -DNDEBUG -std=c++20 -Xcompiler=-fPIC -Wno-deprecated-anon-enum-enum-conversion -Wno-deprecated-declarations -MD -MT experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_shuffled_grouped.cu.o -MF experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_shuffled_grouped.cu.o.d -x cu -c /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/experimental/gen_ai/src/quantize/cutlass_extensions/f8i4bf16_shuffled_grouped.cu -o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_shuffled_grouped.cu.o
2025-05-07T20:20:43.1351107Z nvcc warning : Support for offline compilation for architectures prior to '<compute/sm/lto>_75' will be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning).
2025-05-07T20:20:43.1352595Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_warpspecialized.hpp(719): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:20:43.1353884Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB_));
2025-05-07T20:20:43.1354258Z                             ^
2025-05-07T20:20:43.1354396Z 
2025-05-07T20:20:43.1354599Z Remark: The warnings can be suppressed with "-diag-suppress <warning-number>"
2025-05-07T20:20:43.1354901Z 
2025-05-07T20:20:43.1355790Z /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../external/cutlass/include/cutlass/gemm/collective/sm100_blockscaled_mma_array_warpspecialized.hpp(684): warning #2908-D: the implicit by-copy capture of "this" is deprecated
2025-05-07T20:20:43.1356839Z           Tensor mSFB_tmp = observed_tma_load_sfb_->get_tma_tensor(shape(layout_SFB));
2025-05-07T20:20:43.1357198Z                             ^
2025-05-07T20:20:43.1357339Z 
2025-05-07T20:20:44.0796400Z [151/153] : && /opt/rh/gcc-toolset-11/root/usr/bin/c++ -fPIC -DTORCH_USE_CUDA_DSA -DTORCH_USE_HIP_DSA -DNO_AVX512=1 -O3 -DNDEBUG  -s -shared -Wl,-soname,fbgemm_gpu_experimental_gen_ai.so -o experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/attention/attention.cpp.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/coalesce/coalesce.cpp.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/quantize.cpp.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/comm/car.cpp.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/gather_scatter/gather_scatter.cpp.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/moe/index_shuffling.cpp.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/kv_cache/kv_cache.cpp.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/attention/gqa_attn_splitk.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/coalesce/coalesce.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/quantize.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/comm/car.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/gather_scatter/gather_scatter.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/moe/index_shuffling.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/kv_cache/kv_cache.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16bf16bf16_grouped.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16_rowwise_batched.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/bf16i4bf16_shuffled_grouped.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_128_4_1_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_192_2_2_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_128_256_2_1_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_2_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_128_2_4_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_2_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_2_4_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_192_4_1_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_1_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_2_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_2_4_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f4f4bf16/f4f4bf16_256_256_4_1_1_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_blockwise.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_cublas.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_lite.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_128_128_2_1_1_t_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_2_1_1_f_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_128_256_128_4_4_1_f_t.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_128_128_1_1_1_f_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_16_128_1_1_1_f_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_1_1_1_f_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_256_128_2_1_1_f_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_32_128_2_1_1_f_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise/f8f8bf16_rowwise_64_64_128_2_1_1_f_f.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_cluster_size_and_transpose.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/dispatch_fp8_rowwise_batched_kernel_on_tile_size.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/f8f8bf16_rowwise_batched_impl.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_batched/handle_transposition.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_rowwise_grouped.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8f8bf16_tensorwise.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_rowwise.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_shuffled.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/f8i4bf16_shuffled_grouped.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/i8i8bf16.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/i8i8bf16_dynamic.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/cutlass_extensions/mixed_dtype_utils.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/bf16_fast_gemv.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/bf16fp8bf16_fast_gemv.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/fp8fp8bf16_fast_gemv.cu.o experimental/gen_ai/CMakeFiles/fbgemm_gpu_experimental_gen_ai.dir/src/quantize/fast_gemv/include/fast_gemv.cu.o -L/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs   -L/usr/local/cuda-12.8/targets/sbsa-linux/lib -Wl,-rpath,/usr/local/cuda-12.8/lib64:/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib:/usr/local/cuda-12.8/lib64/stubs:/usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs:  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so  /usr/local/cuda-12.8/lib64/libnvrtc.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so  /usr/local/cuda-12.8/lib64/stubs/libcuda.so  /usr/local/cuda-12.8/targets/sbsa-linux/lib/stubs/libnvidia-ml.so  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch_cpu.so" -Wl,--as-needed  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch_cuda.so" -Wl,--as-needed  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10_cuda.so  /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libc10.so  /usr/local/cuda-12.8/lib64/libcudart.so  -Wl,--no-as-needed,"/__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/lib/libtorch.so" -Wl,--as-needed  -lcudadevrt  -lcudart_static  -lrt  -lpthread  -ldl && :
2025-05-07T20:20:44.2852408Z [152/153] cd /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai && bash /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/../.github/scripts/fbgemm_gpu_postbuild.bash /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:44.2854074Z ################################################################################
2025-05-07T20:20:44.2854356Z [CMAKE] Running post-build script ...
2025-05-07T20:20:44.2855124Z Target file: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:44.2855780Z Removing all RPATHs ...
2025-05-07T20:20:44.2856001Z ################################################################################
2025-05-07T20:20:44.2856876Z [152/153] cd /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-build && /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/cmake/data/bin/cmake -P cmake_install.cmake
2025-05-07T20:20:44.2975614Z -- Install configuration: "Release"
2025-05-07T20:20:44.2996102Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/asmjit.so
2025-05-07T20:20:44.3030486Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/fbgemm.so
2025-05-07T20:20:44.3038637Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:44.3049615Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.3050886Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/__init__.py
2025-05-07T20:20:44.3064473Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/ck_bf16_bench.py
2025-05-07T20:20:44.3065546Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/comm_bench.py
2025-05-07T20:20:44.3067328Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/gather_scatter_bench.py
2025-05-07T20:20:44.3068401Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/quantize_bench.py
2025-05-07T20:20:44.3069442Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/quantize_ops.py
2025-05-07T20:20:44.3071917Z -- Up-to-date: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai
2025-05-07T20:20:44.3072884Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/__init__.py
2025-05-07T20:20:44.3076590Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.3081712Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/README.md
2025-05-07T20:20:44.3093611Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/__init__.py
2025-05-07T20:20:44.3094653Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/activation.py
2025-05-07T20:20:44.3095716Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/gather_scatter.py
2025-05-07T20:20:44.3096767Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/layers.py
2025-05-07T20:20:44.3099605Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/shuffling.py
2025-05-07T20:20:44.3100626Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/quantize.py
2025-05-07T20:20:44.3108419Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:44.3133576Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/example/__init__.py
2025-05-07T20:20:44.3144369Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/example/utils.py
2025-05-07T20:20:44.3166840Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/__init__.py
2025-05-07T20:20:44.3174931Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py
2025-05-07T20:20:44.3176043Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/grouped_gemm.py
2025-05-07T20:20:44.3177174Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/matmul_perf_model.py
2025-05-07T20:20:44.3178263Z -- Installing: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/_skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/utils.py
2025-05-07T20:20:44.3209105Z 
2025-05-07T20:20:44.3348178Z 
2025-05-07T20:20:44.3348827Z copying fbgemm_gpu/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/__init__.py
2025-05-07T20:20:44.3355489Z copying fbgemm_gpu/batched_unary_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/batched_unary_embeddings_ops.py
2025-05-07T20:20:44.3360443Z copying fbgemm_gpu/enums.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/enums.py
2025-05-07T20:20:44.3365602Z copying fbgemm_gpu/metrics.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/metrics.py
2025-05-07T20:20:44.3370780Z copying fbgemm_gpu/permute_pooled_embedding_modules.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/permute_pooled_embedding_modules.py
2025-05-07T20:20:44.3381743Z copying fbgemm_gpu/permute_pooled_embedding_modules_split.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/permute_pooled_embedding_modules_split.py
2025-05-07T20:20:44.3386358Z copying fbgemm_gpu/quantize_comm.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize_comm.py
2025-05-07T20:20:44.3395086Z copying fbgemm_gpu/quantize_utils.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize_utils.py
2025-05-07T20:20:44.3400483Z copying fbgemm_gpu/runtime_monitor.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/runtime_monitor.py
2025-05-07T20:20:44.3405026Z copying fbgemm_gpu/sparse_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sparse_ops.py
2025-05-07T20:20:44.3423509Z copying fbgemm_gpu/split_embedding_configs.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_configs.py
2025-05-07T20:20:44.3428618Z copying fbgemm_gpu/split_embedding_inference_converter.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_inference_converter.py
2025-05-07T20:20:44.3434114Z copying fbgemm_gpu/split_embedding_optimizer_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_optimizer_ops.py
2025-05-07T20:20:44.3440084Z copying fbgemm_gpu/split_embedding_utils.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_utils.py
2025-05-07T20:20:44.3444912Z copying fbgemm_gpu/split_table_batched_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops.py
2025-05-07T20:20:44.3449929Z copying fbgemm_gpu/split_table_batched_embeddings_ops_common.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_common.py
2025-05-07T20:20:44.3455764Z copying fbgemm_gpu/split_table_batched_embeddings_ops_inference.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_inference.py
2025-05-07T20:20:44.3466978Z copying fbgemm_gpu/split_table_batched_embeddings_ops_training.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_training.py
2025-05-07T20:20:44.3484936Z copying fbgemm_gpu/split_table_batched_embeddings_ops_training_common.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_training_common.py
2025-05-07T20:20:44.3495180Z copying fbgemm_gpu/ssd_split_table_batched_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/ssd_split_table_batched_embeddings_ops.py
2025-05-07T20:20:44.3500043Z copying fbgemm_gpu/tbe_input_multiplexer.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe_input_multiplexer.py
2025-05-07T20:20:44.3505510Z copying fbgemm_gpu/uvm.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/uvm.py
2025-05-07T20:20:44.3510821Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/config
2025-05-07T20:20:44.3511463Z copying fbgemm_gpu/config/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/config/__init__.py
2025-05-07T20:20:44.3522362Z copying fbgemm_gpu/config/feature_list.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/config/feature_list.py
2025-05-07T20:20:44.3527383Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs
2025-05-07T20:20:44.3527977Z copying fbgemm_gpu/docs/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/__init__.py
2025-05-07T20:20:44.3532460Z copying fbgemm_gpu/docs/common.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/common.py
2025-05-07T20:20:44.3537165Z copying fbgemm_gpu/docs/examples.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/examples.py
2025-05-07T20:20:44.3541746Z copying fbgemm_gpu/docs/jagged_tensor_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/jagged_tensor_ops.py
2025-05-07T20:20:44.3547425Z copying fbgemm_gpu/docs/merge_pooled_embedding_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/merge_pooled_embedding_ops.py
2025-05-07T20:20:44.3553322Z copying fbgemm_gpu/docs/permute_pooled_embedding_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/permute_pooled_embedding_ops.py
2025-05-07T20:20:44.3558411Z copying fbgemm_gpu/docs/quantize_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/quantize_ops.py
2025-05-07T20:20:44.3562978Z copying fbgemm_gpu/docs/sparse_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/sparse_ops.py
2025-05-07T20:20:44.3569068Z copying fbgemm_gpu/docs/version.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/version.py
2025-05-07T20:20:44.3573897Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize
2025-05-07T20:20:44.3578787Z copying fbgemm_gpu/quantize/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize/__init__.py
2025-05-07T20:20:44.3588125Z copying fbgemm_gpu/quantize/quantize_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize/quantize_ops.py
2025-05-07T20:20:44.3593571Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll
2025-05-07T20:20:44.3598581Z copying fbgemm_gpu/sll/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/__init__.py
2025-05-07T20:20:44.3603237Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe
2025-05-07T20:20:44.3603834Z copying fbgemm_gpu/tbe/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/__init__.py
2025-05-07T20:20:44.3608124Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton
2025-05-07T20:20:44.3612884Z copying fbgemm_gpu/triton/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/__init__.py
2025-05-07T20:20:44.3617677Z copying fbgemm_gpu/triton/common.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/common.py
2025-05-07T20:20:44.3622223Z copying fbgemm_gpu/triton/quantize.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/quantize.py
2025-05-07T20:20:44.3629267Z copying fbgemm_gpu/triton/quantize_ref.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/quantize_ref.py
2025-05-07T20:20:44.3635929Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils
2025-05-07T20:20:44.3636634Z copying fbgemm_gpu/utils/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/__init__.py
2025-05-07T20:20:44.3641238Z copying fbgemm_gpu/utils/filestore.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/filestore.py
2025-05-07T20:20:44.3646008Z copying fbgemm_gpu/utils/loader.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/loader.py
2025-05-07T20:20:44.3650911Z copying fbgemm_gpu/utils/torch_library.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/torch_library.py
2025-05-07T20:20:44.3656098Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/cpu
2025-05-07T20:20:44.3660777Z copying fbgemm_gpu/sll/cpu/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/cpu/__init__.py
2025-05-07T20:20:44.3666103Z copying fbgemm_gpu/sll/cpu/cpu_sll.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/cpu/cpu_sll.py
2025-05-07T20:20:44.3676020Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/meta
2025-05-07T20:20:44.3683607Z copying fbgemm_gpu/sll/meta/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/meta/__init__.py
2025-05-07T20:20:44.3690137Z copying fbgemm_gpu/sll/meta/meta_sll.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/meta/meta_sll.py
2025-05-07T20:20:44.3695444Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.3702027Z copying fbgemm_gpu/sll/triton/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/__init__.py
2025-05-07T20:20:44.3707413Z copying fbgemm_gpu/sll/triton/common.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/common.py
2025-05-07T20:20:44.3712422Z copying fbgemm_gpu/sll/triton/triton_dense_jagged_cat_jagged_out.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_dense_jagged_cat_jagged_out.py
2025-05-07T20:20:44.3716786Z copying fbgemm_gpu/sll/triton/triton_jagged2_to_padded_dense.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged2_to_padded_dense.py
2025-05-07T20:20:44.3723595Z copying fbgemm_gpu/sll/triton/triton_jagged_bmm.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_bmm.py
2025-05-07T20:20:44.3728534Z copying fbgemm_gpu/sll/triton/triton_jagged_bmm_jagged_out.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_bmm_jagged_out.py
2025-05-07T20:20:44.3734146Z copying fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_add.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_add.py
2025-05-07T20:20:44.3739350Z copying fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_mul_jagged_out.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_mul_jagged_out.py
2025-05-07T20:20:44.3746852Z copying fbgemm_gpu/sll/triton/triton_jagged_dense_flash_attention.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_dense_flash_attention.py
2025-05-07T20:20:44.3752774Z copying fbgemm_gpu/sll/triton/triton_jagged_flash_attention_basic.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_flash_attention_basic.py
2025-05-07T20:20:44.3767486Z copying fbgemm_gpu/sll/triton/triton_jagged_self_substraction_jagged_out.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_self_substraction_jagged_out.py
2025-05-07T20:20:44.3771693Z copying fbgemm_gpu/sll/triton/triton_jagged_softmax.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_softmax.py
2025-05-07T20:20:44.3777280Z copying fbgemm_gpu/sll/triton/triton_multi_head_jagged_flash_attention.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_multi_head_jagged_flash_attention.py
2025-05-07T20:20:44.3785708Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.3786372Z copying fbgemm_gpu/tbe/bench/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/__init__.py
2025-05-07T20:20:44.3791058Z copying fbgemm_gpu/tbe/bench/bench_config.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/bench_config.py
2025-05-07T20:20:44.3796012Z copying fbgemm_gpu/tbe/bench/bench_runs.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/bench_runs.py
2025-05-07T20:20:44.3802040Z copying fbgemm_gpu/tbe/bench/eeg_cli.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/eeg_cli.py
2025-05-07T20:20:44.3808117Z copying fbgemm_gpu/tbe/bench/embedding_ops_common_config.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/embedding_ops_common_config.py
2025-05-07T20:20:44.3812814Z copying fbgemm_gpu/tbe/bench/eval_compression.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/eval_compression.py
2025-05-07T20:20:44.3817204Z copying fbgemm_gpu/tbe/bench/reporter.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/reporter.py
2025-05-07T20:20:44.3822179Z copying fbgemm_gpu/tbe/bench/tbe_data_config.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/tbe_data_config.py
2025-05-07T20:20:44.3827578Z copying fbgemm_gpu/tbe/bench/tbe_data_config_loader.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/tbe_data_config_loader.py
2025-05-07T20:20:44.3832438Z copying fbgemm_gpu/tbe/bench/tbe_data_config_param_models.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/tbe_data_config_param_models.py
2025-05-07T20:20:44.3837532Z copying fbgemm_gpu/tbe/bench/utils.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/utils.py
2025-05-07T20:20:44.3842669Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/cache
2025-05-07T20:20:44.3843334Z copying fbgemm_gpu/tbe/cache/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/cache/__init__.py
2025-05-07T20:20:44.3848619Z copying fbgemm_gpu/tbe/cache/split_embeddings_cache_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/cache/split_embeddings_cache_ops.py
2025-05-07T20:20:44.3852211Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.3852856Z copying fbgemm_gpu/tbe/ssd/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/__init__.py
2025-05-07T20:20:44.3857531Z copying fbgemm_gpu/tbe/ssd/common.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/common.py
2025-05-07T20:20:44.3861991Z copying fbgemm_gpu/tbe/ssd/inference.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/inference.py
2025-05-07T20:20:44.3868214Z copying fbgemm_gpu/tbe/ssd/training.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/training.py
2025-05-07T20:20:44.3876295Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/stats
2025-05-07T20:20:44.3876962Z copying fbgemm_gpu/tbe/stats/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/stats/__init__.py
2025-05-07T20:20:44.3881417Z copying fbgemm_gpu/tbe/stats/bench_params_reporter.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/stats/bench_params_reporter.py
2025-05-07T20:20:44.3887142Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.3887796Z copying fbgemm_gpu/tbe/utils/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/__init__.py
2025-05-07T20:20:44.3892577Z copying fbgemm_gpu/tbe/utils/common.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/common.py
2025-05-07T20:20:44.3897694Z copying fbgemm_gpu/tbe/utils/offsets.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/offsets.py
2025-05-07T20:20:44.3901979Z copying fbgemm_gpu/tbe/utils/quantize.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/quantize.py
2025-05-07T20:20:44.3908069Z copying fbgemm_gpu/tbe/utils/requests.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/requests.py
2025-05-07T20:20:44.3913667Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/utils
2025-05-07T20:20:44.3914489Z copying fbgemm_gpu/tbe/ssd/utils/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/utils/__init__.py
2025-05-07T20:20:44.3920157Z copying fbgemm_gpu/tbe/ssd/utils/partially_materialized_tensor.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/utils/partially_materialized_tensor.py
2025-05-07T20:20:44.3932023Z creating directory _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/jagged
2025-05-07T20:20:44.3932730Z copying fbgemm_gpu/triton/jagged/__init__.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/jagged/__init__.py
2025-05-07T20:20:44.3937239Z copying fbgemm_gpu/triton/jagged/triton_jagged_tensor_ops.py -> _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/jagged/triton_jagged_tensor_ops.py
2025-05-07T20:20:44.3945846Z 
2025-05-07T20:20:44.4074203Z INFO:root:running bdist_wheel
2025-05-07T20:20:44.4132693Z INFO:root:running build
2025-05-07T20:20:44.4133102Z INFO:root:running build_py
2025-05-07T20:20:44.4144085Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4147023Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4149947Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/batched_unary_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4152283Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/enums.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4154575Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/metrics.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4156878Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/permute_pooled_embedding_modules.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4159029Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/permute_pooled_embedding_modules_split.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4160804Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize_comm.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4163316Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize_utils.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4165324Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/runtime_monitor.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4167298Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sparse_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4169748Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_configs.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4171792Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_inference_converter.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4173806Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_optimizer_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4180121Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_utils.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4182054Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4184086Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4186041Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_inference.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4188732Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_training.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4192718Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_training_common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4194489Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/ssd_split_table_batched_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4196297Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe_input_multiplexer.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4198117Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/uvm.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4201394Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/config
2025-05-07T20:20:44.4202974Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/config/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/config
2025-05-07T20:20:44.4204893Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/config/feature_list.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/config
2025-05-07T20:20:44.4208693Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4210100Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4212202Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4218685Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/examples.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4220566Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/jagged_tensor_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4222657Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/merge_pooled_embedding_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4224489Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/permute_pooled_embedding_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4226869Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/quantize_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4228606Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/sparse_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4231079Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/version.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.4234665Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/quantize
2025-05-07T20:20:44.4240984Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/quantize
2025-05-07T20:20:44.4243029Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize/quantize_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/quantize
2025-05-07T20:20:44.4246023Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll
2025-05-07T20:20:44.4251896Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll
2025-05-07T20:20:44.4255083Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe
2025-05-07T20:20:44.4261735Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe
2025-05-07T20:20:44.4265316Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton
2025-05-07T20:20:44.4270990Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton
2025-05-07T20:20:44.4273337Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton
2025-05-07T20:20:44.4275269Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/quantize.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton
2025-05-07T20:20:44.4277503Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/quantize_ref.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton
2025-05-07T20:20:44.4280843Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils
2025-05-07T20:20:44.4282367Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils
2025-05-07T20:20:44.4284374Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/filestore.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils
2025-05-07T20:20:44.4286245Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/loader.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils
2025-05-07T20:20:44.4288072Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/torch_library.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils
2025-05-07T20:20:44.4291024Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/cpu
2025-05-07T20:20:44.4292480Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/cpu/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/cpu
2025-05-07T20:20:44.4294547Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/cpu/cpu_sll.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/cpu
2025-05-07T20:20:44.4297657Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/meta
2025-05-07T20:20:44.4299120Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/meta/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/meta
2025-05-07T20:20:44.4301130Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/meta/meta_sll.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/meta
2025-05-07T20:20:44.4305294Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4306722Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4308759Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4310742Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_dense_jagged_cat_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4313206Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged2_to_padded_dense.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4315075Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_bmm.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4317057Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_bmm_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4319447Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_add.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4321408Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_mul_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4323391Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_dense_flash_attention.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4325535Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_flash_attention_basic.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4327631Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_self_substraction_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4329434Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_softmax.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4331568Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_multi_head_jagged_flash_attention.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.4335805Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4337528Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4339628Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/bench_config.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4346253Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/bench_runs.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4348541Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/eeg_cli.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4350355Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/embedding_ops_common_config.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4352299Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/eval_compression.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4354214Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/reporter.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4356029Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/tbe_data_config.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4358406Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/tbe_data_config_loader.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4360412Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/tbe_data_config_param_models.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4362251Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/utils.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.4365564Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/cache
2025-05-07T20:20:44.4366860Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/cache/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/cache
2025-05-07T20:20:44.4368931Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/cache/split_embeddings_cache_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/cache
2025-05-07T20:20:44.4371972Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.4373439Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.4375319Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.4377152Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/inference.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.4379152Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/training.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.4383154Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/stats
2025-05-07T20:20:44.4384687Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/stats/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/stats
2025-05-07T20:20:44.4386806Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/stats/bench_params_reporter.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/stats
2025-05-07T20:20:44.4390148Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.4392082Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.4394121Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.4395986Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/offsets.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.4397819Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/quantize.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.4399697Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/requests.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.4402877Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/utils
2025-05-07T20:20:44.4404404Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/utils/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/utils
2025-05-07T20:20:44.4406495Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/utils/partially_materialized_tensor.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/utils
2025-05-07T20:20:44.4409480Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/jagged
2025-05-07T20:20:44.4410823Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/jagged/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/jagged
2025-05-07T20:20:44.4412961Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/jagged/triton_jagged_tensor_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/jagged
2025-05-07T20:20:44.4471948Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/asmjit.so -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4508498Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/fbgemm.so -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.4579461Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai
2025-05-07T20:20:44.4587742Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai
2025-05-07T20:20:44.6590913Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.6601163Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.6603038Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/ck_bf16_bench.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.6610621Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/comm_bench.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.6619723Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/gather_scatter_bench.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.6628036Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/quantize_bench.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.6635783Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/bench/quantize_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.6649875Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai
2025-05-07T20:20:44.6663115Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.6665079Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/README.md -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.6671503Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.6679029Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/activation.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.6686048Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/gather_scatter.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.6693198Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/layers.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.6706690Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/moe/shuffling.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.6720734Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gen_ai/quantize.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai
2025-05-07T20:20:44.6729675Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/example
2025-05-07T20:20:44.6731538Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/example/fbgemm_gpu_experimental_example_py.so -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/example
2025-05-07T20:20:44.6775365Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/example/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/example
2025-05-07T20:20:44.6783247Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/example/utils.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/example
2025-05-07T20:20:44.6790440Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.6792852Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.6798919Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.6825054Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/grouped_gemm.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.6836933Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/matmul_perf_model.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.6843771Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/experimental/gemm/triton_gemm/utils.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.6850312Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6853043Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/batched_unary_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6855356Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/enums.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6857616Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/metrics.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6860004Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/permute_pooled_embedding_modules.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6862254Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/permute_pooled_embedding_modules_split.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6864314Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize_comm.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6866493Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize_utils.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6868612Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/runtime_monitor.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6870734Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sparse_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6873519Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_configs.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6875810Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_inference_converter.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6877960Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_optimizer_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6887755Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_embedding_utils.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6890043Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6892080Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6894325Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_inference.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6897257Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_training.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6901393Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/split_table_batched_embeddings_ops_training_common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6903594Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/ssd_split_table_batched_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6905591Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe_input_multiplexer.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6907565Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/uvm.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu
2025-05-07T20:20:44.6909727Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/config/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/config
2025-05-07T20:20:44.6911936Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/config/feature_list.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/config
2025-05-07T20:20:44.6914055Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.6916283Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.6918276Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/examples.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.6920321Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/jagged_tensor_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.6922463Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/merge_pooled_embedding_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.6925066Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/permute_pooled_embedding_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.6927506Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/quantize_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.6929579Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/sparse_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.6931808Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/docs/version.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs
2025-05-07T20:20:44.6933951Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/quantize
2025-05-07T20:20:44.6938486Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/quantize/quantize_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/quantize
2025-05-07T20:20:44.6940488Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll
2025-05-07T20:20:44.6942845Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe
2025-05-07T20:20:44.6944828Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton
2025-05-07T20:20:44.6946871Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton
2025-05-07T20:20:44.6948822Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/quantize.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton
2025-05-07T20:20:44.6951161Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/quantize_ref.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton
2025-05-07T20:20:44.6953471Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils
2025-05-07T20:20:44.6955637Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/filestore.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils
2025-05-07T20:20:44.6957664Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/loader.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils
2025-05-07T20:20:44.6959627Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/utils/torch_library.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils
2025-05-07T20:20:44.6961664Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/cpu/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/cpu
2025-05-07T20:20:44.6963731Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/cpu/cpu_sll.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/cpu
2025-05-07T20:20:44.6966003Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/meta/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/meta
2025-05-07T20:20:44.6968134Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/meta/meta_sll.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/meta
2025-05-07T20:20:44.6970226Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6972451Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6974632Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_dense_jagged_cat_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6976698Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged2_to_padded_dense.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6978768Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_bmm.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6980833Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_bmm_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6983179Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_add.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6985260Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_mul_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6987339Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_dense_flash_attention.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6989573Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_flash_attention_basic.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6991996Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_self_substraction_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6994197Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_jagged_softmax.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6996451Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/sll/triton/triton_multi_head_jagged_flash_attention.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.6998622Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7000807Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/bench_config.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7002894Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/bench_runs.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7005091Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/eeg_cli.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7015254Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/embedding_ops_common_config.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7017419Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/eval_compression.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7021984Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/reporter.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7023960Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/tbe_data_config.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7026187Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/tbe_data_config_loader.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7028356Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/tbe_data_config_param_models.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7030218Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/bench/utils.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7032513Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/cache/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/cache
2025-05-07T20:20:44.7034730Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/cache/split_embeddings_cache_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/cache
2025-05-07T20:20:44.7036815Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.7039072Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.7041113Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/inference.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.7043405Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/training.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.7046400Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/stats/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/stats
2025-05-07T20:20:44.7048646Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/stats/bench_params_reporter.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/stats
2025-05-07T20:20:44.7050702Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7052831Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/common.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7054715Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/offsets.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7056676Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/quantize.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7058703Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/utils/requests.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7060899Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/utils/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/utils
2025-05-07T20:20:44.7063146Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/tbe/ssd/utils/partially_materialized_tensor.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/utils
2025-05-07T20:20:44.7065111Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/jagged/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/jagged
2025-05-07T20:20:44.7067292Z INFO:root:copying _skbuild/linux-aarch64-3.9/cmake-install/fbgemm_gpu/triton/jagged/triton_jagged_tensor_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/jagged
2025-05-07T20:20:44.7090274Z INFO:skbuild:copied 90 files
2025-05-07T20:20:44.7090648Z INFO:root:running build_ext
2025-05-07T20:20:44.7100941Z INFO:root:installing to _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel
2025-05-07T20:20:44.7101361Z INFO:root:running install
2025-05-07T20:20:44.7182264Z INFO:root:running install_lib
2025-05-07T20:20:44.7185916Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel
2025-05-07T20:20:44.7189485Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu
2025-05-07T20:20:44.7191061Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/config
2025-05-07T20:20:44.7193130Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/config/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/config
2025-05-07T20:20:44.7195664Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/config/feature_list.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/config
2025-05-07T20:20:44.7197688Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/docs
2025-05-07T20:20:44.7199489Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/docs
2025-05-07T20:20:44.7201078Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs/common.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/docs
2025-05-07T20:20:44.7202586Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs/examples.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/docs
2025-05-07T20:20:44.7203995Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs/jagged_tensor_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/docs
2025-05-07T20:20:44.7205457Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs/merge_pooled_embedding_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/docs
2025-05-07T20:20:44.7206970Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs/permute_pooled_embedding_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/docs
2025-05-07T20:20:44.7208425Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs/quantize_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/docs
2025-05-07T20:20:44.7209813Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs/sparse_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/docs
2025-05-07T20:20:44.7211185Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/docs/version.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/docs
2025-05-07T20:20:44.7212709Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/quantize
2025-05-07T20:20:44.7214315Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/quantize/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/quantize
2025-05-07T20:20:44.7215771Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/quantize/quantize_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/quantize
2025-05-07T20:20:44.7217522Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/sll
2025-05-07T20:20:44.7218982Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/sll/cpu
2025-05-07T20:20:44.7220572Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/cpu/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/cpu
2025-05-07T20:20:44.7222197Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/cpu/cpu_sll.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/cpu
2025-05-07T20:20:44.7223875Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/sll/meta
2025-05-07T20:20:44.7225486Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/meta/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/meta
2025-05-07T20:20:44.7226912Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/meta/meta_sll.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/meta
2025-05-07T20:20:44.7228644Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7230238Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7231859Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/common.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7233512Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_dense_jagged_cat_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7235272Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_jagged2_to_padded_dense.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7236981Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_jagged_bmm.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7238554Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_jagged_bmm_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7241366Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_add.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7243069Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_mul_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7244760Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_jagged_dense_flash_attention.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7246587Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_jagged_flash_attention_basic.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7248361Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_jagged_self_substraction_jagged_out.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7249999Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_jagged_softmax.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7251715Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/triton/triton_multi_head_jagged_flash_attention.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll/triton
2025-05-07T20:20:44.7253226Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sll/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/sll
2025-05-07T20:20:44.7254215Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/tbe
2025-05-07T20:20:44.7255824Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7257301Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7258801Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/bench_config.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7260560Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/bench_runs.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7262122Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/eeg_cli.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7263634Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/embedding_ops_common_config.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7265193Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/eval_compression.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7266684Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/reporter.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7268160Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/tbe_data_config.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7269680Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/tbe_data_config_loader.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7271244Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/tbe_data_config_param_models.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7272922Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/bench/utils.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/bench
2025-05-07T20:20:44.7273991Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/tbe/cache
2025-05-07T20:20:44.7275304Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/cache/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/cache
2025-05-07T20:20:44.7276821Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/cache/split_embeddings_cache_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/cache
2025-05-07T20:20:44.7278149Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.7279892Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/tbe/ssd/utils
2025-05-07T20:20:44.7281347Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/utils/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/ssd/utils
2025-05-07T20:20:44.7282951Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/utils/partially_materialized_tensor.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/ssd/utils
2025-05-07T20:20:44.7284503Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.7285910Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/common.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.7287335Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/inference.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.7288849Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/ssd/training.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/ssd
2025-05-07T20:20:44.7290746Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/tbe/stats
2025-05-07T20:20:44.7292455Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/stats/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/stats
2025-05-07T20:20:44.7294055Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/stats/bench_params_reporter.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/stats
2025-05-07T20:20:44.7295756Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7297518Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7298961Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils/common.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7300408Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils/offsets.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7301947Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils/quantize.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7303417Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/utils/requests.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe/utils
2025-05-07T20:20:44.7304883Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/tbe
2025-05-07T20:20:44.7305909Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/triton
2025-05-07T20:20:44.7307497Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/triton/jagged
2025-05-07T20:20:44.7309160Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/jagged/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/triton/jagged
2025-05-07T20:20:44.7310735Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/jagged/triton_jagged_tensor_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/triton/jagged
2025-05-07T20:20:44.7312375Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/triton
2025-05-07T20:20:44.7313770Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/common.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/triton
2025-05-07T20:20:44.7315174Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/quantize.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/triton
2025-05-07T20:20:44.7316604Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/triton/quantize_ref.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/triton
2025-05-07T20:20:44.7318171Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/utils
2025-05-07T20:20:44.7319823Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/utils
2025-05-07T20:20:44.7321214Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils/filestore.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/utils
2025-05-07T20:20:44.7322604Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils/loader.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/utils
2025-05-07T20:20:44.7324004Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/utils/torch_library.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/utils
2025-05-07T20:20:44.7325370Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/asmjit.so -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.7330626Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/fbgemm.so -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.7344188Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/experimental
2025-05-07T20:20:44.7345989Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/experimental/gen_ai
2025-05-07T20:20:44.7347938Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gen_ai
2025-05-07T20:20:44.8049890Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gen_ai
2025-05-07T20:20:44.8063231Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.8066387Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe/README.md -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.8068578Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.8070260Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe/activation.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.8072040Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe/gather_scatter.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.8073713Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe/layers.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.8075376Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/moe/shuffling.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gen_ai/moe
2025-05-07T20:20:44.8077140Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gen_ai/quantize.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gen_ai
2025-05-07T20:20:44.8079133Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.8081058Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.8082672Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench/ck_bf16_bench.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.8084282Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench/comm_bench.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.8085932Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench/gather_scatter_bench.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.8087599Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench/quantize_bench.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.8089241Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/bench/quantize_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/bench
2025-05-07T20:20:44.8090660Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/experimental/example
2025-05-07T20:20:44.8092789Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/example/fbgemm_gpu_experimental_example_py.so -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/example
2025-05-07T20:20:44.8099381Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/example/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/example
2025-05-07T20:20:44.8101075Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/example/utils.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/example
2025-05-07T20:20:44.8102894Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/experimental/gemm
2025-05-07T20:20:44.8104822Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.8106489Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.8108242Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.8110609Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm/grouped_gemm.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.8112585Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm/matmul_perf_model.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.8114366Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/experimental/gemm/triton_gemm/utils.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu/experimental/gemm/triton_gemm
2025-05-07T20:20:44.8115867Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/__init__.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8117229Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/batched_unary_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8118582Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/enums.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8119855Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/metrics.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8121229Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/permute_pooled_embedding_modules.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8122719Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/permute_pooled_embedding_modules_split.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8124218Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/quantize_comm.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8125554Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/quantize_utils.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8126953Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/runtime_monitor.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8128273Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/sparse_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8129693Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/split_embedding_configs.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8131162Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/split_embedding_inference_converter.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8132629Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/split_embedding_optimizer_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8134038Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/split_embedding_utils.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8135461Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/split_table_batched_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8140161Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/split_table_batched_embeddings_ops_common.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8141877Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/split_table_batched_embeddings_ops_inference.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8143544Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/split_table_batched_embeddings_ops_training.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8146452Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/split_table_batched_embeddings_ops_training_common.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8148004Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/ssd_split_table_batched_embeddings_ops.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8149445Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/tbe_input_multiplexer.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8150760Z INFO:root:copying _skbuild/linux-aarch64-3.9/setuptools/lib.linux-aarch64-cpython-39/fbgemm_gpu/uvm.py -> _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu
2025-05-07T20:20:44.8151516Z INFO:skbuild:copied 115 files
2025-05-07T20:20:44.8151963Z INFO:root:running install_egg_info
2025-05-07T20:20:44.8228859Z INFO:root:running egg_info
2025-05-07T20:20:44.8265080Z INFO:root:creating fbgemm_gpu_genai.egg-info
2025-05-07T20:20:44.8272685Z INFO:root:writing fbgemm_gpu_genai.egg-info/PKG-INFO
2025-05-07T20:20:44.8280024Z INFO:root:writing dependency_links to fbgemm_gpu_genai.egg-info/dependency_links.txt
2025-05-07T20:20:44.8283429Z INFO:root:writing requirements to fbgemm_gpu_genai.egg-info/requires.txt
2025-05-07T20:20:44.8284966Z INFO:root:writing top-level names to fbgemm_gpu_genai.egg-info/top_level.txt
2025-05-07T20:20:44.8286900Z INFO:root:writing manifest file 'fbgemm_gpu_genai.egg-info/SOURCES.txt'
2025-05-07T20:20:44.8410003Z INFO:root:reading manifest file 'fbgemm_gpu_genai.egg-info/SOURCES.txt'
2025-05-07T20:20:44.8443873Z INFO:root:writing manifest file 'fbgemm_gpu_genai.egg-info/SOURCES.txt'
2025-05-07T20:20:44.8446429Z INFO:root:Copying fbgemm_gpu_genai.egg-info to _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/./fbgemm_gpu_genai-2025.5.7+cu128-py3.9.egg-info
2025-05-07T20:20:44.8455852Z INFO:root:running install_scripts
2025-05-07T20:20:44.8457004Z INFO:skbuild:copied 0 files
2025-05-07T20:20:48.8481569Z INFO:root:creating _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel/fbgemm_gpu_genai-2025.5.7+cu128.dist-info/WHEEL
2025-05-07T20:20:48.8488329Z INFO:wheel:creating '/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/dist/.tmp-37ddgyh7/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl' and adding '_skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel' to it
2025-05-07T20:20:48.8493055Z INFO:wheel:adding 'fbgemm_gpu/__init__.py'
2025-05-07T20:20:48.8752895Z INFO:wheel:adding 'fbgemm_gpu/asmjit.so'
2025-05-07T20:20:48.8759971Z INFO:wheel:adding 'fbgemm_gpu/batched_unary_embeddings_ops.py'
2025-05-07T20:20:48.8762770Z INFO:wheel:adding 'fbgemm_gpu/enums.py'
2025-05-07T20:20:48.9057297Z INFO:wheel:adding 'fbgemm_gpu/fbgemm.so'
2025-05-07T20:20:48.9071394Z INFO:wheel:adding 'fbgemm_gpu/metrics.py'
2025-05-07T20:20:48.9075668Z INFO:wheel:adding 'fbgemm_gpu/permute_pooled_embedding_modules.py'
2025-05-07T20:20:48.9078577Z INFO:wheel:adding 'fbgemm_gpu/permute_pooled_embedding_modules_split.py'
2025-05-07T20:20:48.9082818Z INFO:wheel:adding 'fbgemm_gpu/quantize_comm.py'
2025-05-07T20:20:48.9086266Z INFO:wheel:adding 'fbgemm_gpu/quantize_utils.py'
2025-05-07T20:20:48.9089903Z INFO:wheel:adding 'fbgemm_gpu/runtime_monitor.py'
2025-05-07T20:20:48.9101398Z INFO:wheel:adding 'fbgemm_gpu/sparse_ops.py'
2025-05-07T20:20:48.9104971Z INFO:wheel:adding 'fbgemm_gpu/split_embedding_configs.py'
2025-05-07T20:20:48.9108320Z INFO:wheel:adding 'fbgemm_gpu/split_embedding_inference_converter.py'
2025-05-07T20:20:48.9110241Z INFO:wheel:adding 'fbgemm_gpu/split_embedding_optimizer_ops.py'
2025-05-07T20:20:48.9112177Z INFO:wheel:adding 'fbgemm_gpu/split_embedding_utils.py'
2025-05-07T20:20:48.9114604Z INFO:wheel:adding 'fbgemm_gpu/split_table_batched_embeddings_ops.py'
2025-05-07T20:20:48.9118269Z INFO:wheel:adding 'fbgemm_gpu/split_table_batched_embeddings_ops_common.py'
2025-05-07T20:20:48.9139427Z INFO:wheel:adding 'fbgemm_gpu/split_table_batched_embeddings_ops_inference.py'
2025-05-07T20:20:48.9181289Z INFO:wheel:adding 'fbgemm_gpu/split_table_batched_embeddings_ops_training.py'
2025-05-07T20:20:48.9186104Z INFO:wheel:adding 'fbgemm_gpu/split_table_batched_embeddings_ops_training_common.py'
2025-05-07T20:20:48.9188231Z INFO:wheel:adding 'fbgemm_gpu/ssd_split_table_batched_embeddings_ops.py'
2025-05-07T20:20:48.9190888Z INFO:wheel:adding 'fbgemm_gpu/tbe_input_multiplexer.py'
2025-05-07T20:20:48.9193110Z INFO:wheel:adding 'fbgemm_gpu/uvm.py'
2025-05-07T20:20:48.9195371Z INFO:wheel:adding 'fbgemm_gpu/config/__init__.py'
2025-05-07T20:20:48.9197667Z INFO:wheel:adding 'fbgemm_gpu/config/feature_list.py'
2025-05-07T20:20:48.9200090Z INFO:wheel:adding 'fbgemm_gpu/docs/__init__.py'
2025-05-07T20:20:48.9201810Z INFO:wheel:adding 'fbgemm_gpu/docs/common.py'
2025-05-07T20:20:48.9204282Z INFO:wheel:adding 'fbgemm_gpu/docs/examples.py'
2025-05-07T20:20:48.9207108Z INFO:wheel:adding 'fbgemm_gpu/docs/jagged_tensor_ops.py'
2025-05-07T20:20:48.9209037Z INFO:wheel:adding 'fbgemm_gpu/docs/merge_pooled_embedding_ops.py'
2025-05-07T20:20:48.9211703Z INFO:wheel:adding 'fbgemm_gpu/docs/permute_pooled_embedding_ops.py'
2025-05-07T20:20:48.9213548Z INFO:wheel:adding 'fbgemm_gpu/docs/quantize_ops.py'
2025-05-07T20:20:48.9219733Z INFO:wheel:adding 'fbgemm_gpu/docs/sparse_ops.py'
2025-05-07T20:20:48.9221620Z INFO:wheel:adding 'fbgemm_gpu/docs/version.py'
2025-05-07T20:20:48.9224218Z INFO:wheel:adding 'fbgemm_gpu/experimental/bench/__init__.py'
2025-05-07T20:20:48.9227445Z INFO:wheel:adding 'fbgemm_gpu/experimental/bench/ck_bf16_bench.py'
2025-05-07T20:20:48.9230616Z INFO:wheel:adding 'fbgemm_gpu/experimental/bench/comm_bench.py'
2025-05-07T20:20:48.9234996Z INFO:wheel:adding 'fbgemm_gpu/experimental/bench/gather_scatter_bench.py'
2025-05-07T20:20:48.9241425Z INFO:wheel:adding 'fbgemm_gpu/experimental/bench/quantize_bench.py'
2025-05-07T20:20:48.9253656Z INFO:wheel:adding 'fbgemm_gpu/experimental/bench/quantize_ops.py'
2025-05-07T20:20:48.9256747Z INFO:wheel:adding 'fbgemm_gpu/experimental/example/__init__.py'
2025-05-07T20:20:48.9415133Z INFO:wheel:adding 'fbgemm_gpu/experimental/example/fbgemm_gpu_experimental_example_py.so'
2025-05-07T20:20:48.9421871Z INFO:wheel:adding 'fbgemm_gpu/experimental/example/utils.py'
2025-05-07T20:20:48.9425257Z INFO:wheel:adding 'fbgemm_gpu/experimental/gemm/triton_gemm/__init__.py'
2025-05-07T20:20:48.9452937Z INFO:wheel:adding 'fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py'
2025-05-07T20:20:48.9462982Z INFO:wheel:adding 'fbgemm_gpu/experimental/gemm/triton_gemm/grouped_gemm.py'
2025-05-07T20:20:48.9467800Z INFO:wheel:adding 'fbgemm_gpu/experimental/gemm/triton_gemm/matmul_perf_model.py'
2025-05-07T20:20:48.9470801Z INFO:wheel:adding 'fbgemm_gpu/experimental/gemm/triton_gemm/utils.py'
2025-05-07T20:20:48.9473738Z INFO:wheel:adding 'fbgemm_gpu/experimental/gen_ai/__init__.py'
2025-05-07T20:20:50.9325206Z INFO:wheel:adding 'fbgemm_gpu/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so'
2025-05-07T20:20:50.9986329Z INFO:wheel:adding 'fbgemm_gpu/experimental/gen_ai/quantize.py'
2025-05-07T20:20:50.9989793Z INFO:wheel:adding 'fbgemm_gpu/experimental/gen_ai/moe/README.md'
2025-05-07T20:20:50.9992686Z INFO:wheel:adding 'fbgemm_gpu/experimental/gen_ai/moe/__init__.py'
2025-05-07T20:20:50.9996174Z INFO:wheel:adding 'fbgemm_gpu/experimental/gen_ai/moe/activation.py'
2025-05-07T20:20:51.0001437Z INFO:wheel:adding 'fbgemm_gpu/experimental/gen_ai/moe/gather_scatter.py'
2025-05-07T20:20:51.0011300Z INFO:wheel:adding 'fbgemm_gpu/experimental/gen_ai/moe/layers.py'
2025-05-07T20:20:51.0015902Z INFO:wheel:adding 'fbgemm_gpu/experimental/gen_ai/moe/shuffling.py'
2025-05-07T20:20:51.0018670Z INFO:wheel:adding 'fbgemm_gpu/quantize/__init__.py'
2025-05-07T20:20:51.0021041Z INFO:wheel:adding 'fbgemm_gpu/quantize/quantize_ops.py'
2025-05-07T20:20:51.0023706Z INFO:wheel:adding 'fbgemm_gpu/sll/__init__.py'
2025-05-07T20:20:51.0026176Z INFO:wheel:adding 'fbgemm_gpu/sll/cpu/__init__.py'
2025-05-07T20:20:51.0033282Z INFO:wheel:adding 'fbgemm_gpu/sll/cpu/cpu_sll.py'
2025-05-07T20:20:51.0035923Z INFO:wheel:adding 'fbgemm_gpu/sll/meta/__init__.py'
2025-05-07T20:20:51.0039539Z INFO:wheel:adding 'fbgemm_gpu/sll/meta/meta_sll.py'
2025-05-07T20:20:51.0042610Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/__init__.py'
2025-05-07T20:20:51.0044592Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/common.py'
2025-05-07T20:20:51.0047002Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_dense_jagged_cat_jagged_out.py'
2025-05-07T20:20:51.0049826Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_jagged2_to_padded_dense.py'
2025-05-07T20:20:51.0053811Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_jagged_bmm.py'
2025-05-07T20:20:51.0058045Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_jagged_bmm_jagged_out.py'
2025-05-07T20:20:51.0060152Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_add.py'
2025-05-07T20:20:51.0062883Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_mul_jagged_out.py'
2025-05-07T20:20:51.0068939Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_jagged_dense_flash_attention.py'
2025-05-07T20:20:51.0074612Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_jagged_flash_attention_basic.py'
2025-05-07T20:20:51.0076740Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_jagged_self_substraction_jagged_out.py'
2025-05-07T20:20:51.0081229Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_jagged_softmax.py'
2025-05-07T20:20:51.0086895Z INFO:wheel:adding 'fbgemm_gpu/sll/triton/triton_multi_head_jagged_flash_attention.py'
2025-05-07T20:20:51.0089167Z INFO:wheel:adding 'fbgemm_gpu/tbe/__init__.py'
2025-05-07T20:20:51.0091891Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/__init__.py'
2025-05-07T20:20:51.0094299Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/bench_config.py'
2025-05-07T20:20:51.0099571Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/bench_runs.py'
2025-05-07T20:20:51.0102293Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/eeg_cli.py'
2025-05-07T20:20:51.0105014Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/embedding_ops_common_config.py'
2025-05-07T20:20:51.0107362Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/eval_compression.py'
2025-05-07T20:20:51.0109010Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/reporter.py'
2025-05-07T20:20:51.0112826Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/tbe_data_config.py'
2025-05-07T20:20:51.0115754Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/tbe_data_config_loader.py'
2025-05-07T20:20:51.0118482Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/tbe_data_config_param_models.py'
2025-05-07T20:20:51.0120288Z INFO:wheel:adding 'fbgemm_gpu/tbe/bench/utils.py'
2025-05-07T20:20:51.0122420Z INFO:wheel:adding 'fbgemm_gpu/tbe/cache/__init__.py'
2025-05-07T20:20:51.0124385Z INFO:wheel:adding 'fbgemm_gpu/tbe/cache/split_embeddings_cache_ops.py'
2025-05-07T20:20:51.0126366Z INFO:wheel:adding 'fbgemm_gpu/tbe/ssd/__init__.py'
2025-05-07T20:20:51.0128084Z INFO:wheel:adding 'fbgemm_gpu/tbe/ssd/common.py'
2025-05-07T20:20:51.0134385Z INFO:wheel:adding 'fbgemm_gpu/tbe/ssd/inference.py'
2025-05-07T20:20:51.0159440Z INFO:wheel:adding 'fbgemm_gpu/tbe/ssd/training.py'
2025-05-07T20:20:51.0162839Z INFO:wheel:adding 'fbgemm_gpu/tbe/ssd/utils/__init__.py'
2025-05-07T20:20:51.0166391Z INFO:wheel:adding 'fbgemm_gpu/tbe/ssd/utils/partially_materialized_tensor.py'
2025-05-07T20:20:51.0168472Z INFO:wheel:adding 'fbgemm_gpu/tbe/stats/__init__.py'
2025-05-07T20:20:51.0171840Z INFO:wheel:adding 'fbgemm_gpu/tbe/stats/bench_params_reporter.py'
2025-05-07T20:20:51.0174079Z INFO:wheel:adding 'fbgemm_gpu/tbe/utils/__init__.py'
2025-05-07T20:20:51.0176052Z INFO:wheel:adding 'fbgemm_gpu/tbe/utils/common.py'
2025-05-07T20:20:51.0178148Z INFO:wheel:adding 'fbgemm_gpu/tbe/utils/offsets.py'
2025-05-07T20:20:51.0181010Z INFO:wheel:adding 'fbgemm_gpu/tbe/utils/quantize.py'
2025-05-07T20:20:51.0186891Z INFO:wheel:adding 'fbgemm_gpu/tbe/utils/requests.py'
2025-05-07T20:20:51.0189048Z INFO:wheel:adding 'fbgemm_gpu/triton/__init__.py'
2025-05-07T20:20:51.0191183Z INFO:wheel:adding 'fbgemm_gpu/triton/common.py'
2025-05-07T20:20:51.0199210Z INFO:wheel:adding 'fbgemm_gpu/triton/quantize.py'
2025-05-07T20:20:51.0203912Z INFO:wheel:adding 'fbgemm_gpu/triton/quantize_ref.py'
2025-05-07T20:20:51.0206009Z INFO:wheel:adding 'fbgemm_gpu/triton/jagged/__init__.py'
2025-05-07T20:20:51.0214335Z INFO:wheel:adding 'fbgemm_gpu/triton/jagged/triton_jagged_tensor_ops.py'
2025-05-07T20:20:51.0216663Z INFO:wheel:adding 'fbgemm_gpu/utils/__init__.py'
2025-05-07T20:20:51.0219269Z INFO:wheel:adding 'fbgemm_gpu/utils/filestore.py'
2025-05-07T20:20:51.0221099Z INFO:wheel:adding 'fbgemm_gpu/utils/loader.py'
2025-05-07T20:20:51.0223748Z INFO:wheel:adding 'fbgemm_gpu/utils/torch_library.py'
2025-05-07T20:20:51.0227028Z INFO:wheel:adding 'fbgemm_gpu_genai-2025.5.7+cu128.dist-info/METADATA'
2025-05-07T20:20:51.0228332Z INFO:wheel:adding 'fbgemm_gpu_genai-2025.5.7+cu128.dist-info/WHEEL'
2025-05-07T20:20:51.0229356Z INFO:wheel:adding 'fbgemm_gpu_genai-2025.5.7+cu128.dist-info/top_level.txt'
2025-05-07T20:20:51.0236038Z INFO:wheel:adding 'fbgemm_gpu_genai-2025.5.7+cu128.dist-info/RECORD'
2025-05-07T20:20:51.0241054Z INFO:root:removing _skbuild/linux-aarch64-3.9/setuptools/bdist.linux-aarch64/wheel
2025-05-07T20:20:51.0432461Z ╒════════════════════════════╤════════════════════════════════════════════════╕
2025-05-07T20:20:51.0432908Z │                            │ Version                                        │
2025-05-07T20:20:51.0433367Z ╞════════════════════════════╪════════════════════════════════════════════════╡
2025-05-07T20:20:51.0433791Z │ PyTorch                    │ 2.8.0.dev20250507+cu128                        │
2025-05-07T20:20:51.0434478Z ├────────────────────────────┼────────────────────────────────────────────────┤
2025-05-07T20:20:51.0434966Z │ CUDA (Declared by PyTorch) │ 12.8                                           │
2025-05-07T20:20:51.0435433Z ├────────────────────────────┼────────────────────────────────────────────────┤
2025-05-07T20:20:51.0435859Z │ CUDA (Actual)              │ nvcc: NVIDIA (R) Cuda compiler driver          │
2025-05-07T20:20:51.0436307Z │                            │ Copyright (c) 2005-2025 NVIDIA Corporation     │
2025-05-07T20:20:51.0437159Z │                            │ Built on Wed_Jan_15_19:21:50_PST_2025          │
2025-05-07T20:20:51.0437581Z │                            │ Cuda compilation tools, release 12.8, V12.8.61 │
2025-05-07T20:20:51.0438011Z │                            │ Build cuda_12.8.r12.8/compiler.35404655_0      │
2025-05-07T20:20:51.0438449Z ╘════════════════════════════╧════════════════════════════════════════════════╛
2025-05-07T20:20:51.4495075Z Successfully built fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:51.5387043Z 
2025-05-07T20:20:51.5739594Z ################################################################################
2025-05-07T20:20:51.5740146Z [CHECK] BUILT LIBRARY: ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:51.5740671Z [CHECK] Listing out library size:
2025-05-07T20:20:51.5741166Z + du -h --block-size=1M ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:51.5741629Z 
2025-05-07T20:20:51.5826354Z 90	./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:51.5828447Z 
2025-05-07T20:20:51.5830267Z [CHECK] Listing out the GLIBC versions referenced by: ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:51.5831408Z + objdump -TC ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so | grep GLIBC_ | sed 's/.*GLIBC_\([.0-9]*\).*/GLIBC_\1/g' | sort -Vu | cat
2025-05-07T20:20:51.5832124Z 
2025-05-07T20:20:51.5974626Z GLIBC_2.17
2025-05-07T20:20:51.5977802Z 
2025-05-07T20:20:51.5977868Z 
2025-05-07T20:20:51.5978477Z [CHECK] Listing out the GLIBCXX versions referenced by: ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:51.5979605Z + objdump -TC ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so | grep GLIBCXX_ | sed 's/.*GLIBCXX_\([.0-9]*\).*/GLIBCXX_\1/g' | sort -Vu | cat
2025-05-07T20:20:51.5980413Z 
2025-05-07T20:20:51.6069541Z GLIBCXX_3.4
2025-05-07T20:20:51.6069748Z GLIBCXX_3.4.9
2025-05-07T20:20:51.6069908Z GLIBCXX_3.4.11
2025-05-07T20:20:51.6070076Z GLIBCXX_3.4.18
2025-05-07T20:20:51.6070245Z GLIBCXX_3.4.20
2025-05-07T20:20:51.6070404Z GLIBCXX_3.4.21
2025-05-07T20:20:51.6072167Z 
2025-05-07T20:20:51.6072325Z 
2025-05-07T20:20:51.6125489Z + nm -gDC ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so > /tmp/tmp.n6iHZFbO3K.symbols.txt
2025-05-07T20:20:51.6126040Z 
2025-05-07T20:20:51.6288438Z 
2025-05-07T20:20:51.6356015Z [CHECK] Total Number of symbols: 1955
2025-05-07T20:20:51.6375719Z [CHECK] Number of fbgemm symbols: 619
2025-05-07T20:20:51.6399672Z + nm -gDCu ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so > /tmp/tmp.JXXxbWgiG8.usymbols.txt
2025-05-07T20:20:51.6400209Z 
2025-05-07T20:20:51.6430560Z 
2025-05-07T20:20:51.6461946Z [CHECK] Listing out undefined symbols (282 total):
2025-05-07T20:20:51.6484557Z                  U __assert_fail@GLIBC_2.17
2025-05-07T20:20:51.6484998Z                  U at::cuda::detail::getDefaultCUDAGenerator(signed char)
2025-05-07T20:20:51.6485340Z                  U at::CUDAGeneratorImpl::device_type()
2025-05-07T20:20:51.6485683Z                  U at::CUDAGeneratorImpl::philox_cuda_state(unsigned long)
2025-05-07T20:20:51.6486030Z                  U at::cuda::getCurrentDeviceProperties()
2025-05-07T20:20:51.6486442Z                  U at::_ops::add__Tensor::call(at::Tensor&, at::Tensor const&, c10::Scalar const&)
2025-05-07T20:20:51.6486870Z                  U at::_ops::div__Scalar::call(at::Tensor&, c10::Scalar const&)
2025-05-07T20:20:51.6487626Z                  U at::_ops::empty_like::call(at::Tensor const&, std::optional<c10::ScalarType>, std::optional<c10::Layout>, std::optional<c10::Device>, std::optional<bool>, std::optional<c10::MemoryFormat>)
2025-05-07T20:20:51.6489051Z                  U at::_ops::empty_memory_format::call(c10::ArrayRef<c10::SymInt>, std::optional<c10::ScalarType>, std::optional<c10::Layout>, std::optional<c10::Device>, std::optional<bool>, std::optional<c10::MemoryFormat>)
2025-05-07T20:20:51.6489929Z                  U at::_ops::expand::call(at::Tensor const&, c10::ArrayRef<c10::SymInt>, bool)
2025-05-07T20:20:51.6490378Z                  U at::_ops::index_select::call(at::Tensor const&, long, at::Tensor const&)
2025-05-07T20:20:51.6490803Z                  U at::_ops::norm_Scalar::call(at::Tensor const&, c10::Scalar const&)
2025-05-07T20:20:51.6491253Z                  U at::_ops::scatter_add_::call(at::Tensor&, long, at::Tensor const&, at::Tensor const&)
2025-05-07T20:20:51.6491695Z                  U at::_ops::select_int::call(at::Tensor const&, long, c10::SymInt)
2025-05-07T20:20:51.6492133Z                  U at::_ops::split_sizes::call(at::Tensor const&, c10::ArrayRef<c10::SymInt>, long)
2025-05-07T20:20:51.6492732Z                  U at::_ops::sum_dim_IntList::call(at::Tensor const&, c10::OptionalArrayRef<long>, bool, std::optional<c10::ScalarType>)
2025-05-07T20:20:51.6493401Z                  U at::_ops::to_dtype::call(at::Tensor const&, c10::ScalarType, bool, bool, std::optional<c10::MemoryFormat>)
2025-05-07T20:20:51.6494444Z                  U at::_ops::to_dtype_layout::call(at::Tensor const&, std::optional<c10::ScalarType>, std::optional<c10::Layout>, std::optional<c10::Device>, std::optional<bool>, bool, bool, std::optional<c10::MemoryFormat>)
2025-05-07T20:20:51.6495203Z                  U at::_ops::unsqueeze::call(at::Tensor const&, long)
2025-05-07T20:20:51.6495570Z                  U at::_ops::view::call(at::Tensor const&, c10::ArrayRef<c10::SymInt>)
2025-05-07T20:20:51.6496233Z                  U at::_ops::zeros::call(c10::ArrayRef<c10::SymInt>, std::optional<c10::ScalarType>, std::optional<c10::Layout>, std::optional<c10::Device>, std::optional<bool>)
2025-05-07T20:20:51.6496877Z                  U at::tensor(c10::ArrayRef<long>, c10::TensorOptions const&)
2025-05-07T20:20:51.6497322Z                  U at::TensorMaker::make_tensor()
2025-05-07T20:20:51.6497643Z                  U c10::AutogradMetaInterface::~AutogradMetaInterface()
2025-05-07T20:20:51.6498041Z                  U c10::BFloat16* at::TensorBase::data_ptr<c10::BFloat16>() const
2025-05-07T20:20:51.6498461Z                  U c10::BFloat16* at::TensorBase::mutable_data_ptr<c10::BFloat16>() const
2025-05-07T20:20:51.6498805Z                  U c10::BoolType::get()
2025-05-07T20:20:51.6499299Z                  U c10::cuda::c10_cuda_check_implementation(int, char const*, char const*, int, bool)
2025-05-07T20:20:51.6499726Z                  U c10::cuda::CUDACachingAllocator::allocator
2025-05-07T20:20:51.6500032Z                  U c10::cuda::CUDAStream::stream() const
2025-05-07T20:20:51.6500309Z                  U c10::cuda::current_device()
2025-05-07T20:20:51.6500562Z                  U c10::cuda::device_count()
2025-05-07T20:20:51.6500834Z                  U c10::cuda::ExchangeDevice(signed char)
2025-05-07T20:20:51.6501141Z                  U c10::cuda::getCurrentCUDAStream(signed char)
2025-05-07T20:20:51.6501461Z                  U c10::cuda::getDefaultCUDAStream(signed char)
2025-05-07T20:20:51.6501764Z                  U c10::cuda::GetDevice(signed char*)
2025-05-07T20:20:51.6502074Z                  U c10::cuda::getStreamFromPool(bool, signed char)
2025-05-07T20:20:51.6502400Z                  U c10::cuda::getStreamFromPool(int, signed char)
2025-05-07T20:20:51.6502708Z                  U c10::cuda::MaybeSetDevice(signed char)
2025-05-07T20:20:51.6503030Z                  U c10::cuda::setCurrentCUDAStream(c10::cuda::CUDAStream)
2025-05-07T20:20:51.6503349Z                  U c10::cuda::SetDevice(signed char)
2025-05-07T20:20:51.6503631Z                  U c10::cuda::warn_or_error_on_sync()
2025-05-07T20:20:51.6504347Z                  U c10::detail::infer_schema::make_function_schema(c10::ArrayRef<c10::detail::infer_schema::ArgumentDef>, c10::ArrayRef<c10::detail::infer_schema::ArgumentDef>)
2025-05-07T20:20:51.6505268Z                  U c10::detail::ListImpl::ListImpl(std::vector<c10::IValue, std::allocator<c10::IValue> >, c10::Type::SingletonOrSharedTypePtr<c10::Type>)
2025-05-07T20:20:51.6505957Z                  U c10::detail::torchCheckFail(char const*, char const*, unsigned int, char const*)
2025-05-07T20:20:51.6506700Z                  U c10::detail::torchCheckFail(char const*, char const*, unsigned int, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)
2025-05-07T20:20:51.6507511Z                  U c10::detail::torchInternalAssertFail(char const*, char const*, unsigned int, char const*, char const*)
2025-05-07T20:20:51.6508403Z                  U c10::detail::torchInternalAssertFail(char const*, char const*, unsigned int, char const*, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)
2025-05-07T20:20:51.6509409Z                  U c10d::getNcclErrorDetailStr(ncclResult_t, std::optional<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > >)
2025-05-07T20:20:51.6510050Z                  U c10d::ncclGetErrorWithVersion[abi:cxx11](ncclResult_t)
2025-05-07T20:20:51.6510695Z                  U c10::Error::Error(c10::SourceLocation, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >)
2025-05-07T20:20:51.6511182Z                  U c10::Error::what() const
2025-05-07T20:20:51.6511558Z                  U c10::Float8_e4m3fn* at::TensorBase::mutable_data_ptr<c10::Float8_e4m3fn>() const
2025-05-07T20:20:51.6512097Z                  U c10::FloatType::get()
2025-05-07T20:20:51.6512368Z                  U c10::GeneratorImpl::device() const
2025-05-07T20:20:51.6512638Z                  U c10::get_default_dtype()
2025-05-07T20:20:51.6512924Z                  U c10::impl::cow::is_cow_data_ptr(c10::DataPtr const&)
2025-05-07T20:20:51.6513286Z                  U c10::impl::cow::materialize_cow_storage(c10::StorageImpl&)
2025-05-07T20:20:51.6513701Z                  U c10::impl::device_guard_impl_registry
2025-05-07T20:20:51.6514065Z                  U c10::impl::ExcludeDispatchKeyGuard::~ExcludeDispatchKeyGuard()
2025-05-07T20:20:51.6514584Z                  U c10::impl::ExcludeDispatchKeyGuard::ExcludeDispatchKeyGuard(c10::DispatchKeySet)
2025-05-07T20:20:51.6515016Z                  U c10::impl::GPUTrace::gpuTraceState
2025-05-07T20:20:51.6515291Z                  U c10::impl::GPUTrace::haveState
2025-05-07T20:20:51.6515543Z                  U c10::IntType::get()
2025-05-07T20:20:51.6515889Z                  U c10::IValue::isTensorList() const
2025-05-07T20:20:51.6516250Z                  U c10::IValue::reportToTensorTypeError() const
2025-05-07T20:20:51.6516883Z                  U c10::ListType::get(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, c10::Type::SingletonOrSharedTypePtr<c10::Type>)
2025-05-07T20:20:51.6517494Z                  U c10::MessageLogger::~MessageLogger()
2025-05-07T20:20:51.6517828Z                  U c10::MessageLogger::MessageLogger(char const*, int, int)
2025-05-07T20:20:51.6518166Z                  U c10::operator*(c10::SymInt const&, int)
2025-05-07T20:20:51.6518462Z                  U c10::operator-(c10::SymInt const&, int)
2025-05-07T20:20:51.6518752Z                  U c10::operator-(c10::SymInt const&, long)
2025-05-07T20:20:51.6519071Z                  U c10::operator<<(std::ostream&, c10::Device const&)
2025-05-07T20:20:51.6519397Z                  U c10::operator<<(std::ostream&, c10::DeviceType)
2025-05-07T20:20:51.6519799Z                  U c10::OptionalType::get(c10::Type::SingletonOrSharedTypePtr<c10::Type>)
2025-05-07T20:20:51.6520174Z                  U c10::ScalarTypeType::get()
2025-05-07T20:20:51.6520484Z                  U c10::StorageImpl::throw_data_ptr_access_error() const
2025-05-07T20:20:51.6520799Z                  U c10::StringType::get()
2025-05-07T20:20:51.6521097Z                  U c10::SymbolicShapeMeta::init_is_contiguous() const
2025-05-07T20:20:51.6521547Z                  U c10::SymBool::guard_bool(char const*, long) const
2025-05-07T20:20:51.6521927Z                  U c10::SymFloat::guard_float(char const*, long) const
2025-05-07T20:20:51.6522263Z                  U c10::SymInt::guard_int(char const*, long) const
2025-05-07T20:20:51.6522824Z                  U c10::SymInt::SymInt(c10::intrusive_ptr<c10::SymNodeImpl, c10::detail::intrusive_target_default_null_type<c10::SymNodeImpl> >)
2025-05-07T20:20:51.6523350Z                  U c10::SymInt::toSymNode() const
2025-05-07T20:20:51.6523922Z                  U c10::TensorImpl::set_autograd_meta(std::unique_ptr<c10::AutogradMetaInterface, std::default_delete<c10::AutogradMetaInterface> >)
2025-05-07T20:20:51.6524531Z                  U c10::TensorImpl::throw_data_ptr_access_error() const
2025-05-07T20:20:51.6524833Z                  U c10::TensorType::get()
2025-05-07T20:20:51.6525095Z                  U c10::throwNullDataPtrError()
2025-05-07T20:20:51.6525378Z                  U c10::UndefinedTensorImpl::_singleton
2025-05-07T20:20:51.6525667Z                  U c10::warn(c10::Warning const&)
2025-05-07T20:20:51.6525939Z                  U c10::warnDeprecatedDataPtr()
2025-05-07T20:20:51.6526870Z                  U c10::Warning::Warning(std::variant<c10::Warning::UserWarning, c10::Warning::DeprecationWarning>, c10::SourceLocation const&, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, bool)
2025-05-07T20:20:51.6527772Z                  U caffe2::TypeMeta::error_unsupported_typemeta(caffe2::TypeMeta)
2025-05-07T20:20:51.6528141Z                  U caffe2::TypeMeta::typeMetaDatas()
2025-05-07T20:20:51.6528405Z                  U cublasLtCreate
2025-05-07T20:20:51.6528621Z                  U cublasLtMatmul
2025-05-07T20:20:51.6528865Z                  U cublasLtMatmulAlgoGetHeuristic
2025-05-07T20:20:51.6529140Z                  U cublasLtMatmulDescCreate
2025-05-07T20:20:51.6529413Z                  U cublasLtMatmulDescSetAttribute
2025-05-07T20:20:51.6529697Z                  U cublasLtMatmulPreferenceCreate
2025-05-07T20:20:51.6530085Z                  U cublasLtMatmulPreferenceSetAttribute
2025-05-07T20:20:51.6530374Z                  U cublasLtMatrixLayoutCreate
2025-05-07T20:20:51.6530666Z                  U cudaDeviceGetAttribute@libcudart.so.12
2025-05-07T20:20:51.6530973Z                  U cudaDeviceSynchronize@libcudart.so.12
2025-05-07T20:20:51.6531275Z                  U cudaEventCreateWithFlags@libcudart.so.12
2025-05-07T20:20:51.6531577Z                  U cudaEventDestroy@libcudart.so.12
2025-05-07T20:20:51.6531935Z                  U cudaEventElapsedTime@libcudart.so.12
2025-05-07T20:20:51.6532231Z                  U cudaEventQuery@libcudart.so.12
2025-05-07T20:20:51.6532507Z                  U cudaEventRecord@libcudart.so.12
2025-05-07T20:20:51.6532797Z                  U cudaEventSynchronize@libcudart.so.12
2025-05-07T20:20:51.6533074Z                  U cudaFree@libcudart.so.12
2025-05-07T20:20:51.6533347Z                  U cudaFuncSetAttribute@libcudart.so.12
2025-05-07T20:20:51.6533641Z                  U cudaGetDevice@libcudart.so.12
2025-05-07T20:20:51.6533937Z                  U cudaGetDeviceProperties_v2@libcudart.so.12
2025-05-07T20:20:51.6534259Z                  U cudaGetDriverEntryPoint@libcudart.so.12
2025-05-07T20:20:51.6534551Z                  U cudaGetErrorName@libcudart.so.12
2025-05-07T20:20:51.6534837Z                  U cudaGetErrorString@libcudart.so.12
2025-05-07T20:20:51.6535123Z                  U cudaGetLastError@libcudart.so.12
2025-05-07T20:20:51.6535412Z                  U cudaIpcGetMemHandle@libcudart.so.12
2025-05-07T20:20:51.6535712Z                  U cudaIpcOpenMemHandle@libcudart.so.12
2025-05-07T20:20:51.6536028Z                  U cudaLaunchCooperativeKernel@libcudart.so.12
2025-05-07T20:20:51.6536346Z                  U cudaLaunchKernelExC@libcudart.so.12
2025-05-07T20:20:51.6536840Z                  U cudaLaunchKernel@libcudart.so.12
2025-05-07T20:20:51.6537124Z                  U cudaMalloc@libcudart.so.12
2025-05-07T20:20:51.6537615Z                  U cudaMemcpyAsync@libcudart.so.12
2025-05-07T20:20:51.6537898Z                  U cudaMemcpy@libcudart.so.12
2025-05-07T20:20:51.6538165Z                  U cudaMemsetAsync@libcudart.so.12
2025-05-07T20:20:51.6538468Z                  U __cudaPopCallConfiguration@libcudart.so.12
2025-05-07T20:20:51.6538798Z                  U __cudaPushCallConfiguration@libcudart.so.12
2025-05-07T20:20:51.6539120Z                  U __cudaRegisterFatBinaryEnd@libcudart.so.12
2025-05-07T20:20:51.6539442Z                  U __cudaRegisterFatBinary@libcudart.so.12
2025-05-07T20:20:51.6539743Z                  U __cudaRegisterFunction@libcudart.so.12
2025-05-07T20:20:51.6540033Z                  U __cudaRegisterVar@libcudart.so.12
2025-05-07T20:20:51.6540313Z                  U cudaStreamQuery@libcudart.so.12
2025-05-07T20:20:51.6540606Z                  U cudaStreamSynchronize@libcudart.so.12
2025-05-07T20:20:51.6540906Z                  U cudaStreamWaitEvent@libcudart.so.12
2025-05-07T20:20:51.6541218Z                  U __cudaUnregisterFatBinary@libcudart.so.12
2025-05-07T20:20:51.6541517Z                  U __cxa_allocate_exception@CXXABI_1.3
2025-05-07T20:20:51.6541781Z                  U __cxa_atexit@GLIBC_2.17
2025-05-07T20:20:51.6542225Z                  U __cxa_begin_catch@CXXABI_1.3
2025-05-07T20:20:51.6542476Z                  U __cxa_end_catch@CXXABI_1.3
2025-05-07T20:20:51.6542741Z                  U __cxa_free_exception@CXXABI_1.3
2025-05-07T20:20:51.6543004Z                  U __cxa_guard_abort@CXXABI_1.3
2025-05-07T20:20:51.6543268Z                  U __cxa_guard_acquire@CXXABI_1.3
2025-05-07T20:20:51.6543534Z                  U __cxa_guard_release@CXXABI_1.3
2025-05-07T20:20:51.6543789Z                  U __cxa_rethrow@CXXABI_1.3
2025-05-07T20:20:51.6544043Z                  U __cxa_thread_atexit@CXXABI_1.3.7
2025-05-07T20:20:51.6544299Z                  U __cxa_throw@CXXABI_1.3
2025-05-07T20:20:51.6544536Z                  U dlclose@GLIBC_2.17
2025-05-07T20:20:51.6544764Z                  U dlopen@GLIBC_2.17
2025-05-07T20:20:51.6545135Z                  U dlsym@GLIBC_2.17
2025-05-07T20:20:51.6545354Z                  U exit@GLIBC_2.17
2025-05-07T20:20:51.6545670Z                  U fclose@GLIBC_2.17
2025-05-07T20:20:51.6545901Z                  U fflush@GLIBC_2.17
2025-05-07T20:20:51.6546188Z                  U float* at::TensorBase::data_ptr<float>() const
2025-05-07T20:20:51.6546526Z                  U float* at::TensorBase::mutable_data_ptr<float>() const
2025-05-07T20:20:51.6546831Z                  U fopen@GLIBC_2.17
2025-05-07T20:20:51.6547157Z                  U fprintf@GLIBC_2.17
2025-05-07T20:20:51.6547395Z                  U fread@GLIBC_2.17
2025-05-07T20:20:51.6547616Z                  U fwrite@GLIBC_2.17
2025-05-07T20:20:51.6547845Z                  U __getauxval@GLIBC_2.17
2025-05-07T20:20:51.6548088Z                  U getenv@GLIBC_2.17
2025-05-07T20:20:51.6548329Z                  U __gxx_personality_v0@CXXABI_1.3
2025-05-07T20:20:51.6548625Z                  U int* at::TensorBase::data_ptr<int>() const
2025-05-07T20:20:51.6548956Z                  U int* at::TensorBase::mutable_data_ptr<int>() const
2025-05-07T20:20:51.6549286Z                  U long* at::TensorBase::data_ptr<long>() const
2025-05-07T20:20:51.6549638Z                  U long c10::detail::maybe_wrap_dim_slow<long>(long, long, bool)
2025-05-07T20:20:51.6549951Z                  U memcmp@GLIBC_2.17
2025-05-07T20:20:51.6550182Z                  U memcpy@GLIBC_2.17
2025-05-07T20:20:51.6550407Z                  U memmove@GLIBC_2.17
2025-05-07T20:20:51.6550640Z                  U memset@GLIBC_2.17
2025-05-07T20:20:51.6550869Z                  U ncclAllGather
2025-05-07T20:20:51.6551082Z                  U ncclAllReduce
2025-05-07T20:20:51.6551299Z                  U ncclCommInitRank
2025-05-07T20:20:51.6551529Z                  U ncclGetUniqueId
2025-05-07T20:20:51.6551930Z                  U ncclReduceScatter
2025-05-07T20:20:51.6552223Z                  U operator delete(void*, unsigned long)@CXXABI_1.3.9
2025-05-07T20:20:51.6552677Z                  U operator new(unsigned long)@GLIBCXX_3.4
2025-05-07T20:20:51.6552951Z                  U printf@GLIBC_2.17
2025-05-07T20:20:51.6553187Z                  U sched_yield@GLIBC_2.17
2025-05-07T20:20:51.6553504Z                  U signed char* at::TensorBase::data_ptr<signed char>() const
2025-05-07T20:20:51.6553912Z                  U signed char* at::TensorBase::mutable_data_ptr<signed char>() const
2025-05-07T20:20:51.6554258Z                  U __stack_chk_fail@GLIBC_2.17
2025-05-07T20:20:51.6554524Z                  U __stack_chk_guard@GLIBC_2.17
2025-05-07T20:20:51.6554910Z                  U std::basic_ios<char, std::char_traits<char> >::clear(std::_Ios_Iostate)@GLIBCXX_3.4
2025-05-07T20:20:51.6555518Z                  U std::basic_ios<char, std::char_traits<char> >::init(std::basic_streambuf<char, std::char_traits<char> >*)@GLIBCXX_3.4
2025-05-07T20:20:51.6556120Z                  U std::basic_iostream<char, std::char_traits<char> >::~basic_iostream()@GLIBCXX_3.4
2025-05-07T20:20:51.6556646Z                  U std::basic_iostream<wchar_t, std::char_traits<wchar_t> >::~basic_iostream()@GLIBCXX_3.4
2025-05-07T20:20:51.6557301Z                  U std::basic_ios<wchar_t, std::char_traits<wchar_t> >::init(std::basic_streambuf<wchar_t, std::char_traits<wchar_t> >*)@GLIBCXX_3.4
2025-05-07T20:20:51.6558272Z                  U std::basic_ostream<char, std::char_traits<char> >& std::operator<< <std::char_traits<char> >(std::basic_ostream<char, std::char_traits<char> >&, char const*)@GLIBCXX_3.4
2025-05-07T20:20:51.6559322Z                  U std::basic_ostream<char, std::char_traits<char> >& std::__ostream_insert<char, std::char_traits<char> >(std::basic_ostream<char, std::char_traits<char> >&, char const*, long)@GLIBCXX_3.4.9
2025-05-07T20:20:51.6560303Z                  U std::basic_streambuf<char, std::char_traits<char> >::basic_streambuf(std::basic_streambuf<char, std::char_traits<char> > const&)@GLIBCXX_3.4
2025-05-07T20:20:51.6561204Z                  U std::basic_streambuf<wchar_t, std::char_traits<wchar_t> >::basic_streambuf(std::basic_streambuf<wchar_t, std::char_traits<wchar_t> > const&)@GLIBCXX_3.4
2025-05-07T20:20:51.6561880Z                  U std::cerr@GLIBCXX_3.4
2025-05-07T20:20:51.6562123Z                  U std::cout@GLIBCXX_3.4
2025-05-07T20:20:51.6562414Z                  U std::ctype<char>::_M_widen_init() const@GLIBCXX_3.4.11
2025-05-07T20:20:51.6562928Z                  U std::__cxx11::basic_ostringstream<char, std::char_traits<char>, std::allocator<char> >::basic_ostringstream()
2025-05-07T20:20:51.6563726Z                  U std::__cxx11::basic_ostringstream<char, std::char_traits<char>, std::allocator<char> >::~basic_ostringstream()@GLIBCXX_3.4.21
2025-05-07T20:20:51.6564501Z                  U std::__cxx11::basic_stringbuf<char, std::char_traits<char>, std::allocator<char> >::_M_pbump(char*, char*, long)@GLIBCXX_3.4.21
2025-05-07T20:20:51.6565305Z                  U std::__cxx11::basic_stringbuf<char, std::char_traits<char>, std::allocator<char> >::_M_sync(char*, unsigned long, unsigned long)@GLIBCXX_3.4.21
2025-05-07T20:20:51.6566131Z                  U std::__cxx11::basic_stringbuf<char, std::char_traits<char>, std::allocator<char> >::__xfer_bufptrs::~__xfer_bufptrs()@GLIBCXX_3.4.21
2025-05-07T20:20:51.6566961Z                  U std::__cxx11::basic_stringbuf<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >::_M_pbump(wchar_t*, wchar_t*, long)@GLIBCXX_3.4.21
2025-05-07T20:20:51.6567848Z                  U std::__cxx11::basic_stringbuf<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >::_M_sync(wchar_t*, unsigned long, unsigned long)@GLIBCXX_3.4.21
2025-05-07T20:20:51.6568721Z                  U std::__cxx11::basic_stringbuf<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >::__xfer_bufptrs::~__xfer_bufptrs()@GLIBCXX_3.4.21
2025-05-07T20:20:51.6569507Z                  U std::__detail::_Prime_rehash_policy::_M_need_rehash(unsigned long, unsigned long, unsigned long) const@GLIBCXX_3.4.18
2025-05-07T20:20:51.6569991Z                  U stderr@GLIBC_2.17
2025-05-07T20:20:51.6570335Z                  U std::exception::~exception()@GLIBCXX_3.4
2025-05-07T20:20:51.6570653Z                  U std::exception::what() const@GLIBCXX_3.4
2025-05-07T20:20:51.6570960Z                  U std::ios_base::Init::~Init()@GLIBCXX_3.4
2025-05-07T20:20:51.6571250Z                  U std::ios_base::Init::Init()@GLIBCXX_3.4
2025-05-07T20:20:51.6571535Z                  U std::ios_base::~ios_base()@GLIBCXX_3.4
2025-05-07T20:20:51.6571820Z                  U std::ios_base::ios_base()@GLIBCXX_3.4
2025-05-07T20:20:51.6572102Z                  U std::locale::~locale()@GLIBCXX_3.4
2025-05-07T20:20:51.6572383Z                  U std::locale::locale()@GLIBCXX_3.4
2025-05-07T20:20:51.6572700Z                  U std::logic_error::logic_error(char const*)@GLIBCXX_3.4.21
2025-05-07T20:20:51.6573045Z                  U std::logic_error::~logic_error()@GLIBCXX_3.4
2025-05-07T20:20:51.6573341Z                  U std::ostream::flush()@GLIBCXX_3.4
2025-05-07T20:20:51.6573630Z                  U std::ostream::operator<<(int)@GLIBCXX_3.4
2025-05-07T20:20:51.6573921Z                  U std::ostream::put(char)@GLIBCXX_3.4
2025-05-07T20:20:51.6574257Z                  U std::ostream& std::ostream::_M_insert<long>(long)@GLIBCXX_3.4.9
2025-05-07T20:20:51.6574798Z                  U std::ostream& std::ostream::_M_insert<unsigned long>(unsigned long)@GLIBCXX_3.4.9
2025-05-07T20:20:51.6575288Z                  U std::ostream& std::ostream::_M_insert<void const*>(void const*)@GLIBCXX_3.4.9
2025-05-07T20:20:51.6575728Z                  U std::runtime_error::runtime_error(char const*)@GLIBCXX_3.4.21
2025-05-07T20:20:51.6576094Z                  U std::runtime_error::~runtime_error()@GLIBCXX_3.4
2025-05-07T20:20:51.6576671Z                  U std::runtime_error::runtime_error(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)@GLIBCXX_3.4.21
2025-05-07T20:20:51.6577222Z                  U std::terminate()@GLIBCXX_3.4
2025-05-07T20:20:51.6577499Z                  U std::__throw_bad_alloc()@GLIBCXX_3.4
2025-05-07T20:20:51.6577859Z                  U std::__throw_bad_array_new_length()
2025-05-07T20:20:51.6578134Z                  U std::__throw_bad_cast()@GLIBCXX_3.4
2025-05-07T20:20:51.6578435Z                  U std::__throw_length_error(char const*)@GLIBCXX_3.4
2025-05-07T20:20:51.6578769Z                  U std::__throw_logic_error(char const*)@GLIBCXX_3.4
2025-05-07T20:20:51.6579127Z                  U std::__throw_out_of_range_fmt(char const*, ...)@GLIBCXX_3.4.20
2025-05-07T20:20:51.6579549Z                  U std::__throw_system_error(int)@GLIBCXX_3.4.11
2025-05-07T20:20:51.6579834Z                  U strlen@GLIBC_2.17
2025-05-07T20:20:51.6580089Z                  U torch::CppFunction::~CppFunction()
2025-05-07T20:20:51.6580569Z                  U torch::cuda::nccl::all2all_single_equal_split(at::Tensor&, at::Tensor&, int, void*, c10::cuda::CUDAStream&)
2025-05-07T20:20:51.6581390Z                  U torch::cuda::nccl::all2all(std::vector<at::Tensor, std::allocator<at::Tensor> >&, std::vector<at::Tensor, std::allocator<at::Tensor> >&, void*, c10::cuda::CUDAStream&)
2025-05-07T20:20:51.6582240Z                  U torch::jit::parseSchema(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, bool)
2025-05-07T20:20:51.6583055Z                  U torch::Library::_def(c10::FunctionSchema&&, c10::OperatorName*, std::vector<at::Tag, std::allocator<at::Tag> > const&, torch::_RegisterOrVerify) &
2025-05-07T20:20:51.6583772Z                  U torch::Library::_impl(char const*, torch::CppFunction&&, torch::_RegisterOrVerify) &
2025-05-07T20:20:51.6584600Z                  U torch::Library::Library(torch::Library::Kind, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::optional<c10::DispatchKey>, char const*, unsigned int)
2025-05-07T20:20:51.6585293Z                  U typeinfo for c10::Error
2025-05-07T20:20:51.6585565Z                  U typeinfo for std::exception@GLIBCXX_3.4
2025-05-07T20:20:51.6585949Z                  U typeinfo for std::logic_error@GLIBCXX_3.4
2025-05-07T20:20:51.6586269Z                  U typeinfo for std::runtime_error@GLIBCXX_3.4
2025-05-07T20:20:51.6586539Z                  U __udivti3@GCC_3.0
2025-05-07T20:20:51.6586880Z                  U unsigned char* at::TensorBase::mutable_data_ptr<unsigned char>() const
2025-05-07T20:20:51.6587230Z                  U _Unwind_Resume@GCC_3.0
2025-05-07T20:20:51.6587475Z                  U usleep@GLIBC_2.17
2025-05-07T20:20:51.6587706Z                  U vtable for c10::Error
2025-05-07T20:20:51.6588006Z                  U vtable for __cxxabiv1::__class_type_info@CXXABI_1.3
2025-05-07T20:20:51.6588366Z                  U vtable for __cxxabiv1::__function_type_info@CXXABI_1.3
2025-05-07T20:20:51.6588731Z                  U vtable for __cxxabiv1::__si_class_type_info@CXXABI_1.3
2025-05-07T20:20:51.6589132Z                  U vtable for std::basic_ios<char, std::char_traits<char> >@GLIBCXX_3.4
2025-05-07T20:20:51.6589583Z                  U vtable for std::basic_ios<wchar_t, std::char_traits<wchar_t> >@GLIBCXX_3.4
2025-05-07T20:20:51.6590059Z                  U vtable for std::basic_streambuf<char, std::char_traits<char> >@GLIBCXX_3.4
2025-05-07T20:20:51.6590644Z                  U vtable for std::basic_streambuf<wchar_t, std::char_traits<wchar_t> >@GLIBCXX_3.4
2025-05-07T20:20:51.6591247Z                  U vtable for std::__cxx11::basic_istringstream<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6592138Z                  U vtable for std::__cxx11::basic_istringstream<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6592872Z                  U vtable for std::__cxx11::basic_ostringstream<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6593599Z                  U vtable for std::__cxx11::basic_ostringstream<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6594312Z                  U vtable for std::__cxx11::basic_stringbuf<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6595112Z                  U vtable for std::__cxx11::basic_stringbuf<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6595818Z                  U vtable for std::__cxx11::basic_stringstream<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6596607Z                  U vtable for std::__cxx11::basic_stringstream<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6597143Z                  U vtable for torch::autograd::AutogradMeta
2025-05-07T20:20:51.6597629Z                  U VTT for std::__cxx11::basic_istringstream<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6598326Z                  U VTT for std::__cxx11::basic_istringstream<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6599031Z                  U VTT for std::__cxx11::basic_ostringstream<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6599723Z                  U VTT for std::__cxx11::basic_ostringstream<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6600410Z                  U VTT for std::__cxx11::basic_stringstream<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6601093Z                  U VTT for std::__cxx11::basic_stringstream<wchar_t, std::char_traits<wchar_t>, std::allocator<wchar_t> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6601571Z                  U wmemcpy@GLIBC_2.17
2025-05-07T20:20:51.6601804Z                  U wmemmove@GLIBC_2.17
2025-05-07T20:20:51.6602039Z                  U __xstat@GLIBC_2.17
2025-05-07T20:20:51.6602276Z                  w __cxa_finalize@GLIBC_2.17
2025-05-07T20:20:51.6602513Z                  w __gmon_start__
2025-05-07T20:20:51.6602863Z                  w _ITM_deregisterTMCloneTable
2025-05-07T20:20:51.6603133Z                  w _ITM_registerTMCloneTable
2025-05-07T20:20:51.6603384Z                  w __pthread_key_create
2025-05-07T20:20:51.6603640Z                  w pthread_mutex_lock@GLIBC_2.17
2025-05-07T20:20:51.6603916Z                  w pthread_mutex_unlock@GLIBC_2.17
2025-05-07T20:20:51.6604220Z [CHECK] Listing out external shared libraries linked:
2025-05-07T20:20:51.6604726Z + ldd ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:51.6605110Z 
2025-05-07T20:20:51.6605198Z 	linux-vdso.so.1 (0x0000ffff80f2c000)
2025-05-07T20:20:51.6605435Z 	libtorch.so => not found
2025-05-07T20:20:51.6605637Z 	libc10.so => not found
2025-05-07T20:20:51.6605856Z 	libnvrtc.so.12 => not found
2025-05-07T20:20:51.6606071Z 	libc10_cuda.so => not found
2025-05-07T20:20:51.6606281Z 	libcuda.so.1 => not found
2025-05-07T20:20:51.6606492Z 	libnvidia-ml.so.1 => not found
2025-05-07T20:20:51.6606710Z 	libtorch_cpu.so => not found
2025-05-07T20:20:51.6606930Z 	libtorch_cuda.so => not found
2025-05-07T20:20:51.6607145Z 	libcudart.so.12 => not found
2025-05-07T20:20:51.6607399Z 	libdl.so.2 => /lib64/libdl.so.2 (0x0000ffff80ecd000)
2025-05-07T20:20:51.6607840Z 	libstdc++.so.6 => /lib64/libstdc++.so.6 (0x0000ffff7b05c000)
2025-05-07T20:20:51.6608193Z 	libgcc_s.so.1 => /lib64/libgcc_s.so.1 (0x0000ffff80e9c000)
2025-05-07T20:20:51.6617671Z 	libc.so.6 => /lib64/libc.so.6 (0x0000ffff7aee6000)
2025-05-07T20:20:51.6618044Z 	/lib/ld-linux-aarch64.so.1 (0x0000ffff80eee000)
2025-05-07T20:20:51.6618351Z 	libm.so.6 => /lib64/libm.so.6 (0x0000ffff7ae25000)
2025-05-07T20:20:51.6618601Z 
2025-05-07T20:20:51.6618688Z [CHECK] Displaying ELF information:
2025-05-07T20:20:51.6619175Z + readelf -d ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so
2025-05-07T20:20:51.6619577Z 
2025-05-07T20:20:51.6619581Z 
2025-05-07T20:20:51.6619716Z Dynamic section at offset 0x59beaf0 contains 40 entries:
2025-05-07T20:20:51.6620276Z   Tag        Type                         Name/Value
2025-05-07T20:20:51.6620630Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch.so]
2025-05-07T20:20:51.6621050Z  0x0000000000000001 (NEEDED)             Shared library: [libc10.so]
2025-05-07T20:20:51.6621471Z  0x0000000000000001 (NEEDED)             Shared library: [libnvrtc.so.12]
2025-05-07T20:20:51.6621895Z  0x0000000000000001 (NEEDED)             Shared library: [libc10_cuda.so]
2025-05-07T20:20:51.6622404Z  0x0000000000000001 (NEEDED)             Shared library: [libcuda.so.1]
2025-05-07T20:20:51.6622836Z  0x0000000000000001 (NEEDED)             Shared library: [libnvidia-ml.so.1]
2025-05-07T20:20:51.6623273Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch_cpu.so]
2025-05-07T20:20:51.6623709Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch_cuda.so]
2025-05-07T20:20:51.6624141Z  0x0000000000000001 (NEEDED)             Shared library: [libcudart.so.12]
2025-05-07T20:20:51.6624580Z  0x0000000000000001 (NEEDED)             Shared library: [libdl.so.2]
2025-05-07T20:20:51.6624998Z  0x0000000000000001 (NEEDED)             Shared library: [libstdc++.so.6]
2025-05-07T20:20:51.6625426Z  0x0000000000000001 (NEEDED)             Shared library: [libgcc_s.so.1]
2025-05-07T20:20:51.6625836Z  0x0000000000000001 (NEEDED)             Shared library: [libc.so.6]
2025-05-07T20:20:51.6626268Z  0x0000000000000001 (NEEDED)             Shared library: [ld-linux-aarch64.so.1]
2025-05-07T20:20:51.6626768Z  0x000000000000000e (SONAME)             Library soname: [fbgemm_gpu_experimental_gen_ai.so]
2025-05-07T20:20:51.6627173Z  0x000000000000000c (INIT)               0x5b7d0
2025-05-07T20:20:51.6627448Z  0x000000000000000d (FINI)               0x3f1080
2025-05-07T20:20:51.6627727Z  0x0000000000000019 (INIT_ARRAY)         0x59cd1a0
2025-05-07T20:20:51.6628027Z  0x000000000000001b (INIT_ARRAYSZ)       1144 (bytes)
2025-05-07T20:20:51.6628318Z  0x000000000000001a (FINI_ARRAY)         0x59cd618
2025-05-07T20:20:51.6628702Z  0x000000000000001c (FINI_ARRAYSZ)       8 (bytes)
2025-05-07T20:20:51.6628991Z  0x000000006ffffef5 (GNU_HASH)           0x228
2025-05-07T20:20:51.6629254Z  0x0000000000000005 (STRTAB)             0xec08
2025-05-07T20:20:51.6629529Z  0x0000000000000006 (SYMTAB)             0x3478
2025-05-07T20:20:51.6629810Z  0x000000000000000a (STRSZ)              226866 (bytes)
2025-05-07T20:20:51.6630103Z  0x000000000000000b (SYMENT)             24 (bytes)
2025-05-07T20:20:51.6630385Z  0x0000000000000003 (PLTGOT)             0x59cffe8
2025-05-07T20:20:51.6630689Z  0x0000000000000002 (PLTRELSZ)           20256 (bytes)
2025-05-07T20:20:51.6630982Z  0x0000000000000014 (PLTREL)             RELA
2025-05-07T20:20:51.6631249Z  0x0000000000000017 (JMPREL)             0x568b0
2025-05-07T20:20:51.6631532Z  0x000000006ffffef6 (TLSDESC_PLT)        0x5ecb0
2025-05-07T20:20:51.6631994Z  0x000000006ffffef7 (TLSDESC_GOT)        0x59cffe0
2025-05-07T20:20:51.6632291Z  0x0000000000000007 (RELA)               0x472c8
2025-05-07T20:20:51.6632585Z  0x0000000000000008 (RELASZ)             62952 (bytes)
2025-05-07T20:20:51.6632879Z  0x0000000000000009 (RELAENT)            24 (bytes)
2025-05-07T20:20:51.6633268Z  0x000000006ffffffe (VERNEED)            0x47188
2025-05-07T20:20:51.6633535Z  0x000000006fffffff (VERNEEDNUM)         6
2025-05-07T20:20:51.6633809Z  0x000000006ffffff0 (VERSYM)             0x4623a
2025-05-07T20:20:51.6634078Z  0x000000006ffffff9 (RELACOUNT)          770
2025-05-07T20:20:51.6634337Z  0x0000000000000000 (NULL)               0x0
2025-05-07T20:20:51.6634512Z 
2025-05-07T20:20:51.6634605Z ################################################################################
2025-05-07T20:20:51.6634803Z 
2025-05-07T20:20:51.6634807Z 
2025-05-07T20:20:51.6634898Z ################################################################################
2025-05-07T20:20:51.6635467Z [CHECK] BUILT LIBRARY: ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:51.6636104Z [CHECK] Listing out library size:
2025-05-07T20:20:51.6636773Z + du -h --block-size=1M ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:51.6637239Z 
2025-05-07T20:20:51.6637554Z 1	./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:51.6637951Z 
2025-05-07T20:20:51.6638606Z [CHECK] Listing out the GLIBC versions referenced by: ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:51.6639734Z + objdump -TC ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so | grep GLIBC_ | sed 's/.*GLIBC_\([.0-9]*\).*/GLIBC_\1/g' | sort -Vu | cat
2025-05-07T20:20:51.6640394Z 
2025-05-07T20:20:51.6640485Z GLIBC_2.17
2025-05-07T20:20:51.6640578Z 
2025-05-07T20:20:51.6640582Z 
2025-05-07T20:20:51.6641059Z [CHECK] Listing out the GLIBCXX versions referenced by: ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:51.6642216Z + objdump -TC ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so | grep GLIBCXX_ | sed 's/.*GLIBCXX_\([.0-9]*\).*/GLIBCXX_\1/g' | sort -Vu | cat
2025-05-07T20:20:51.6642890Z 
2025-05-07T20:20:51.6666849Z GLIBCXX_3.4
2025-05-07T20:20:51.6667027Z GLIBCXX_3.4.9
2025-05-07T20:20:51.6667193Z GLIBCXX_3.4.21
2025-05-07T20:20:51.6669473Z 
2025-05-07T20:20:51.6669511Z 
2025-05-07T20:20:51.6693613Z + nm -gDC ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so > /tmp/tmp.JCoJSUimvL.symbols.txt
2025-05-07T20:20:51.6694172Z 
2025-05-07T20:20:51.6721674Z 
2025-05-07T20:20:51.6753849Z [CHECK] Total Number of symbols: 159
2025-05-07T20:20:51.6769181Z [CHECK] Number of fbgemm symbols: 19
2025-05-07T20:20:51.6793719Z + nm -gDCu ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so > /tmp/tmp.oXM25I0Oip.usymbols.txt
2025-05-07T20:20:51.6794313Z 
2025-05-07T20:20:51.6817519Z 
2025-05-07T20:20:51.6849720Z [CHECK] Listing out undefined symbols (78 total):
2025-05-07T20:20:51.6871626Z                  U at::_ops::add_Tensor::call(at::Tensor const&, at::Tensor const&, c10::Scalar const&)
2025-05-07T20:20:51.6872319Z                  U at::_ops::to_dtype::call(at::Tensor const&, c10::ScalarType, bool, bool, std::optional<c10::MemoryFormat>)
2025-05-07T20:20:51.6873137Z                  U at::_ops::zeros::call(c10::ArrayRef<c10::SymInt>, std::optional<c10::ScalarType>, std::optional<c10::Layout>, std::optional<c10::Device>, std::optional<bool>)
2025-05-07T20:20:51.6874104Z                  U c10::detail::infer_schema::make_function_schema(c10::ArrayRef<c10::detail::infer_schema::ArgumentDef>, c10::ArrayRef<c10::detail::infer_schema::ArgumentDef>)
2025-05-07T20:20:51.6874875Z                  U c10::detail::torchCheckFail(char const*, char const*, unsigned int, char const*)
2025-05-07T20:20:51.6875638Z                  U c10::detail::torchCheckFail(char const*, char const*, unsigned int, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)
2025-05-07T20:20:51.6877221Z                  U c10::detail::torchInternalAssertFail(char const*, char const*, unsigned int, char const*, char const*)
2025-05-07T20:20:51.6877684Z                  U c10::FloatType::get()
2025-05-07T20:20:51.6877966Z                  U c10::IValue::reportToTensorTypeError() const
2025-05-07T20:20:51.6878285Z                  U c10::MessageLogger::~MessageLogger()
2025-05-07T20:20:51.6878613Z                  U c10::MessageLogger::MessageLogger(char const*, int, int)
2025-05-07T20:20:51.6878970Z                  U c10::SymFloat::guard_float(char const*, long) const
2025-05-07T20:20:51.6879268Z                  U c10::TensorType::get()
2025-05-07T20:20:51.6879532Z                  U c10::UndefinedTensorImpl::_singleton
2025-05-07T20:20:51.6879899Z                  U caffe2::TypeMeta::error_unsupported_typemeta(caffe2::TypeMeta)
2025-05-07T20:20:51.6880420Z                  U cudaGetErrorString@libcudart.so.12
2025-05-07T20:20:51.6880712Z                  U cudaGetLastError@libcudart.so.12
2025-05-07T20:20:51.6880995Z                  U cudaLaunchKernel@libcudart.so.12
2025-05-07T20:20:51.6881293Z                  U __cudaPopCallConfiguration@libcudart.so.12
2025-05-07T20:20:51.6881617Z                  U __cudaPushCallConfiguration@libcudart.so.12
2025-05-07T20:20:51.6881937Z                  U __cudaRegisterFatBinaryEnd@libcudart.so.12
2025-05-07T20:20:51.6882384Z                  U __cudaRegisterFatBinary@libcudart.so.12
2025-05-07T20:20:51.6882686Z                  U __cudaRegisterFunction@libcudart.so.12
2025-05-07T20:20:51.6882978Z                  U __cudaRegisterVar@libcudart.so.12
2025-05-07T20:20:51.6883267Z                  U __cudaUnregisterFatBinary@libcudart.so.12
2025-05-07T20:20:51.6883565Z                  U __cxa_allocate_exception@CXXABI_1.3
2025-05-07T20:20:51.6883833Z                  U __cxa_atexit@GLIBC_2.17
2025-05-07T20:20:51.6884089Z                  U __cxa_free_exception@CXXABI_1.3
2025-05-07T20:20:51.6884347Z                  U __cxa_throw@CXXABI_1.3
2025-05-07T20:20:51.6884631Z                  U float* at::TensorBase::data_ptr<float>() const
2025-05-07T20:20:51.6884919Z                  U __getauxval@GLIBC_2.17
2025-05-07T20:20:51.6885167Z                  U __gxx_personality_v0@CXXABI_1.3
2025-05-07T20:20:51.6885496Z                  U long c10::detail::maybe_wrap_dim_slow<long>(long, long, bool)
2025-05-07T20:20:51.6885817Z                  U memcpy@GLIBC_2.17
2025-05-07T20:20:51.6886049Z                  U memmove@GLIBC_2.17
2025-05-07T20:20:51.6886278Z                  U memset@GLIBC_2.17
2025-05-07T20:20:51.6886499Z                  U ncclCommDestroy
2025-05-07T20:20:51.6886717Z                  U ncclCommInitAll
2025-05-07T20:20:51.6886988Z                  U operator delete(void*, unsigned long)@CXXABI_1.3.9
2025-05-07T20:20:51.6887312Z                  U operator new(unsigned long)@GLIBCXX_3.4
2025-05-07T20:20:51.6887862Z                  U std::basic_ios<char, std::char_traits<char> >::clear(std::_Ios_Iostate)@GLIBCXX_3.4
2025-05-07T20:20:51.6888484Z                  U std::basic_ios<char, std::char_traits<char> >::init(std::basic_streambuf<char, std::char_traits<char> >*)@GLIBCXX_3.4
2025-05-07T20:20:51.6889401Z                  U std::basic_ostream<char, std::char_traits<char> >& std::__ostream_insert<char, std::char_traits<char> >(std::basic_ostream<char, std::char_traits<char> >&, char const*, long)@GLIBCXX_3.4.9
2025-05-07T20:20:51.6890336Z                  U std::__cxx11::basic_ostringstream<char, std::char_traits<char>, std::allocator<char> >::~basic_ostringstream()@GLIBCXX_3.4.21
2025-05-07T20:20:51.6890866Z                  U std::ios_base::Init::~Init()@GLIBCXX_3.4
2025-05-07T20:20:51.6891157Z                  U std::ios_base::Init::Init()@GLIBCXX_3.4
2025-05-07T20:20:51.6891440Z                  U std::ios_base::~ios_base()@GLIBCXX_3.4
2025-05-07T20:20:51.6891731Z                  U std::ios_base::ios_base()@GLIBCXX_3.4
2025-05-07T20:20:51.6892004Z                  U std::locale::~locale()@GLIBCXX_3.4
2025-05-07T20:20:51.6892282Z                  U std::locale::locale()@GLIBCXX_3.4
2025-05-07T20:20:51.6892661Z                  U std::ostream::operator<<(int)@GLIBCXX_3.4
2025-05-07T20:20:51.6893010Z                  U std::ostream& std::ostream::_M_insert<long>(long)@GLIBCXX_3.4.9
2025-05-07T20:20:51.6893380Z                  U std::runtime_error::~runtime_error()@GLIBCXX_3.4
2025-05-07T20:20:51.6893960Z                  U std::runtime_error::runtime_error(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)@GLIBCXX_3.4.21
2025-05-07T20:20:51.6894556Z                  U std::__throw_bad_alloc()@GLIBCXX_3.4
2025-05-07T20:20:51.6894864Z                  U std::__throw_length_error(char const*)@GLIBCXX_3.4
2025-05-07T20:20:51.6895187Z                  U std::__throw_logic_error(char const*)@GLIBCXX_3.4
2025-05-07T20:20:51.6895551Z                  U strlen@GLIBC_2.17
2025-05-07T20:20:51.6895803Z                  U torch::CppFunction::~CppFunction()
2025-05-07T20:20:51.6896310Z                  U torch::jit::parseSchema(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, bool)
2025-05-07T20:20:51.6897123Z                  U torch::Library::_def(c10::FunctionSchema&&, c10::OperatorName*, std::vector<at::Tag, std::allocator<at::Tag> > const&, torch::_RegisterOrVerify) &
2025-05-07T20:20:51.6897901Z                  U torch::Library::_impl(char const*, torch::CppFunction&&, torch::_RegisterOrVerify) &
2025-05-07T20:20:51.6898742Z                  U torch::Library::Library(torch::Library::Kind, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::optional<c10::DispatchKey>, char const*, unsigned int)
2025-05-07T20:20:51.6899456Z                  U typeinfo for std::runtime_error@GLIBCXX_3.4
2025-05-07T20:20:51.6899737Z                  U _Unwind_Resume@GCC_3.0
2025-05-07T20:20:51.6900043Z                  U vtable for __cxxabiv1::__class_type_info@CXXABI_1.3
2025-05-07T20:20:51.6900395Z                  U vtable for __cxxabiv1::__function_type_info@CXXABI_1.3
2025-05-07T20:20:51.6900761Z                  U vtable for __cxxabiv1::__si_class_type_info@CXXABI_1.3
2025-05-07T20:20:51.6901154Z                  U vtable for std::basic_ios<char, std::char_traits<char> >@GLIBCXX_3.4
2025-05-07T20:20:51.6901609Z                  U vtable for std::basic_streambuf<char, std::char_traits<char> >@GLIBCXX_3.4
2025-05-07T20:20:51.6902210Z                  U vtable for std::__cxx11::basic_ostringstream<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6902880Z                  U vtable for std::__cxx11::basic_stringbuf<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6903539Z                  U VTT for std::__cxx11::basic_ostringstream<char, std::char_traits<char>, std::allocator<char> >@GLIBCXX_3.4.21
2025-05-07T20:20:51.6904107Z                  w __cxa_finalize@GLIBC_2.17
2025-05-07T20:20:51.6904353Z                  w __gmon_start__
2025-05-07T20:20:51.6904585Z                  w _ITM_deregisterTMCloneTable
2025-05-07T20:20:51.6904857Z                  w _ITM_registerTMCloneTable
2025-05-07T20:20:51.6905108Z                  w __pthread_key_create
2025-05-07T20:20:51.6905390Z [CHECK] Listing out external shared libraries linked:
2025-05-07T20:20:51.6905938Z + ldd ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:51.6906351Z 
2025-05-07T20:20:51.6926760Z 	linux-vdso.so.1 (0x0000ffff9ab2c000)
2025-05-07T20:20:51.6927008Z 	libtorch.so => not found
2025-05-07T20:20:51.6927205Z 	libc10.so => not found
2025-05-07T20:20:51.6927399Z 	libnvrtc.so.12 => not found
2025-05-07T20:20:51.6927623Z 	libc10_cuda.so => not found
2025-05-07T20:20:51.6927834Z 	libcuda.so.1 => not found
2025-05-07T20:20:51.6928041Z 	libnvidia-ml.so.1 => not found
2025-05-07T20:20:51.6928280Z 	libtorch_cpu.so => not found
2025-05-07T20:20:51.6928492Z 	libtorch_cuda.so => not found
2025-05-07T20:20:51.6928708Z 	libcudart.so.12 => not found
2025-05-07T20:20:51.6928982Z 	libstdc++.so.6 => /lib64/libstdc++.so.6 (0x0000ffff9a8b9000)
2025-05-07T20:20:51.6929547Z 	libgcc_s.so.1 => /lib64/libgcc_s.so.1 (0x0000ffff9a888000)
2025-05-07T20:20:51.6929868Z 	libc.so.6 => /lib64/libc.so.6 (0x0000ffff9a712000)
2025-05-07T20:20:51.6930166Z 	libm.so.6 => /lib64/libm.so.6 (0x0000ffff9a651000)
2025-05-07T20:20:51.6930473Z 	/lib/ld-linux-aarch64.so.1 (0x0000ffff9aaee000)
2025-05-07T20:20:51.6932037Z 
2025-05-07T20:20:51.6932565Z [CHECK] Displaying ELF information:
2025-05-07T20:20:51.6933124Z + readelf -d ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/example/fbgemm_gpu_experimental_example_py.so
2025-05-07T20:20:51.6933566Z 
2025-05-07T20:20:51.6947449Z 
2025-05-07T20:20:51.6947660Z Dynamic section at offset 0x7fc20 contains 36 entries:
2025-05-07T20:20:51.6947997Z   Tag        Type                         Name/Value
2025-05-07T20:20:51.6949165Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch.so]
2025-05-07T20:20:51.6949622Z  0x0000000000000001 (NEEDED)             Shared library: [libc10.so]
2025-05-07T20:20:51.6950051Z  0x0000000000000001 (NEEDED)             Shared library: [libnvrtc.so.12]
2025-05-07T20:20:51.6950484Z  0x0000000000000001 (NEEDED)             Shared library: [libc10_cuda.so]
2025-05-07T20:20:51.6950910Z  0x0000000000000001 (NEEDED)             Shared library: [libcuda.so.1]
2025-05-07T20:20:51.6951465Z  0x0000000000000001 (NEEDED)             Shared library: [libnvidia-ml.so.1]
2025-05-07T20:20:51.6952019Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch_cpu.so]
2025-05-07T20:20:51.6952455Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch_cuda.so]
2025-05-07T20:20:51.6952896Z  0x0000000000000001 (NEEDED)             Shared library: [libcudart.so.12]
2025-05-07T20:20:51.6953327Z  0x0000000000000001 (NEEDED)             Shared library: [libstdc++.so.6]
2025-05-07T20:20:51.6953756Z  0x0000000000000001 (NEEDED)             Shared library: [libgcc_s.so.1]
2025-05-07T20:20:51.6954173Z  0x0000000000000001 (NEEDED)             Shared library: [libc.so.6]
2025-05-07T20:20:51.6954651Z  0x000000000000000e (SONAME)             Library soname: [fbgemm_gpu_experimental_example_py.so]
2025-05-07T20:20:51.6955066Z  0x000000000000000c (INIT)               0x4e88
2025-05-07T20:20:51.6955332Z  0x000000000000000d (FINI)               0xa760
2025-05-07T20:20:51.6955605Z  0x0000000000000019 (INIT_ARRAY)         0x8fb20
2025-05-07T20:20:51.6955892Z  0x000000000000001b (INIT_ARRAYSZ)       40 (bytes)
2025-05-07T20:20:51.6956172Z  0x000000000000001a (FINI_ARRAY)         0x8fb48
2025-05-07T20:20:51.6956451Z  0x000000000000001c (FINI_ARRAYSZ)       8 (bytes)
2025-05-07T20:20:51.6956726Z  0x000000006ffffef5 (GNU_HASH)           0x1f0
2025-05-07T20:20:51.6956996Z  0x0000000000000005 (STRTAB)             0x13c0
2025-05-07T20:20:51.6957257Z  0x0000000000000006 (SYMTAB)             0x490
2025-05-07T20:20:51.6957699Z  0x000000000000000a (STRSZ)              10518 (bytes)
2025-05-07T20:20:51.6957994Z  0x000000000000000b (SYMENT)             24 (bytes)
2025-05-07T20:20:51.6958280Z  0x0000000000000003 (PLTGOT)             0x8ffe8
2025-05-07T20:20:51.6958568Z  0x0000000000000002 (PLTRELSZ)           1992 (bytes)
2025-05-07T20:20:51.6958848Z  0x0000000000000014 (PLTREL)             RELA
2025-05-07T20:20:51.6959113Z  0x0000000000000017 (JMPREL)             0x46c0
2025-05-07T20:20:51.6959378Z  0x0000000000000007 (RELA)               0x3ee0
2025-05-07T20:20:51.6959658Z  0x0000000000000008 (RELASZ)             2016 (bytes)
2025-05-07T20:20:51.6959945Z  0x0000000000000009 (RELAENT)            24 (bytes)
2025-05-07T20:20:51.6960228Z  0x000000006ffffffe (VERNEED)            0x3e20
2025-05-07T20:20:51.6960498Z  0x000000006fffffff (VERNEEDNUM)         4
2025-05-07T20:20:51.6960756Z  0x000000006ffffff0 (VERSYM)             0x3cd6
2025-05-07T20:20:51.6961019Z  0x000000006ffffff9 (RELACOUNT)          8
2025-05-07T20:20:51.6961271Z  0x0000000000000000 (NULL)               0x0
2025-05-07T20:20:51.6961440Z 
2025-05-07T20:20:51.6961548Z ################################################################################
2025-05-07T20:20:51.6961855Z 
2025-05-07T20:20:51.6961860Z 
2025-05-07T20:20:51.6961949Z ################################################################################
2025-05-07T20:20:51.6962316Z [CHECK] BUILT LIBRARY: ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so
2025-05-07T20:20:51.6962673Z [CHECK] Listing out library size:
2025-05-07T20:20:51.6963007Z + du -h --block-size=1M ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so
2025-05-07T20:20:51.6963279Z 
2025-05-07T20:20:51.6968393Z 1	./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so
2025-05-07T20:20:51.6970290Z 
2025-05-07T20:20:51.6971437Z [CHECK] Listing out the GLIBC versions referenced by: ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so
2025-05-07T20:20:51.6972562Z + objdump -TC ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so | grep GLIBC_ | sed 's/.*GLIBC_\([.0-9]*\).*/GLIBC_\1/g' | sort -Vu | cat
2025-05-07T20:20:51.6973630Z 
2025-05-07T20:20:51.7019011Z GLIBC_2.17
2025-05-07T20:20:51.7020667Z 
2025-05-07T20:20:51.7020848Z 
2025-05-07T20:20:51.7021315Z [CHECK] Listing out the GLIBCXX versions referenced by: ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so
2025-05-07T20:20:51.7022112Z + objdump -TC ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so | grep GLIBCXX_ | sed 's/.*GLIBCXX_\([.0-9]*\).*/GLIBCXX_\1/g' | sort -Vu | cat
2025-05-07T20:20:51.7022601Z 
2025-05-07T20:20:51.7070316Z 
2025-05-07T20:20:51.7070328Z 
2025-05-07T20:20:51.7095450Z + nm -gDC ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so > /tmp/tmp.c4dN0Augb5.symbols.txt
2025-05-07T20:20:51.7095830Z 
2025-05-07T20:20:51.7147332Z 
2025-05-07T20:20:51.7178526Z [CHECK] Total Number of symbols: 807
2025-05-07T20:20:51.7195441Z [CHECK] Number of fbgemm symbols: 0
2025-05-07T20:20:51.7218897Z + nm -gDCu ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so > /tmp/tmp.w7MTFfUdtJ.usymbols.txt
2025-05-07T20:20:51.7219274Z 
2025-05-07T20:20:51.7242460Z 
2025-05-07T20:20:51.7273216Z [CHECK] Listing out undefined symbols (52 total):
2025-05-07T20:20:51.7293641Z                  U abort@GLIBC_2.17
2025-05-07T20:20:51.7293947Z                  U __clear_cache@GCC_3.0
2025-05-07T20:20:51.7294189Z                  U close@GLIBC_2.17
2025-05-07T20:20:51.7294432Z                  U __cxa_guard_acquire@CXXABI_1.3
2025-05-07T20:20:51.7294718Z                  U __cxa_guard_release@CXXABI_1.3
2025-05-07T20:20:51.7295013Z                  U __errno_location@GLIBC_2.17
2025-05-07T20:20:51.7295261Z                  U fputs@GLIBC_2.17
2025-05-07T20:20:51.7295487Z                  U free@GLIBC_2.17
2025-05-07T20:20:51.7295716Z                  U ftruncate64@GLIBC_2.17
2025-05-07T20:20:51.7295961Z                  U fwrite@GLIBC_2.17
2025-05-07T20:20:51.7296194Z                  U __getauxval@GLIBC_2.17
2025-05-07T20:20:51.7296439Z                  U getauxval@GLIBC_2.17
2025-05-07T20:20:51.7297018Z                  U getenv@GLIBC_2.17
2025-05-07T20:20:51.7297268Z                  U getpagesize@GLIBC_2.17
2025-05-07T20:20:51.7297520Z                  U gettimeofday@GLIBC_2.17
2025-05-07T20:20:51.7297788Z                  U __gxx_personality_v0@CXXABI_1.3
2025-05-07T20:20:51.7298051Z                  U madvise@GLIBC_2.17
2025-05-07T20:20:51.7298277Z                  U malloc@GLIBC_2.17
2025-05-07T20:20:51.7298502Z                  U memcmp@GLIBC_2.17
2025-05-07T20:20:51.7298724Z                  U memcpy@GLIBC_2.17
2025-05-07T20:20:51.7298957Z                  U memmove@GLIBC_2.17
2025-05-07T20:20:51.7299184Z                  U memset@GLIBC_2.17
2025-05-07T20:20:51.7299409Z                  U mmap@GLIBC_2.17
2025-05-07T20:20:51.7299632Z                  U mprotect@GLIBC_2.17
2025-05-07T20:20:51.7299870Z                  U munmap@GLIBC_2.17
2025-05-07T20:20:51.7300095Z                  U open64@GLIBC_2.17
2025-05-07T20:20:51.7300374Z                  U operator delete(void*, unsigned long)@CXXABI_1.3.9
2025-05-07T20:20:51.7300710Z                  U pthread_mutex_destroy@GLIBC_2.17
2025-05-07T20:20:51.7300987Z                  U pthread_mutex_lock@GLIBC_2.17
2025-05-07T20:20:51.7301421Z                  U pthread_mutex_unlock@GLIBC_2.17
2025-05-07T20:20:51.7301673Z                  U read@GLIBC_2.17
2025-05-07T20:20:51.7301896Z                  U realloc@GLIBC_2.17
2025-05-07T20:20:51.7302115Z                  U shm_open
2025-05-07T20:20:51.7302310Z                  U shm_unlink
2025-05-07T20:20:51.7302524Z                  U snprintf@GLIBC_2.17
2025-05-07T20:20:51.7302757Z                  U stderr@GLIBC_2.17
2025-05-07T20:20:51.7302984Z                  U strcmp@GLIBC_2.17
2025-05-07T20:20:51.7303207Z                  U strlen@GLIBC_2.17
2025-05-07T20:20:51.7303428Z                  U strtol@GLIBC_2.17
2025-05-07T20:20:51.7303650Z                  U syscall@GLIBC_2.17
2025-05-07T20:20:51.7303884Z                  U sysconf@GLIBC_2.17
2025-05-07T20:20:51.7304104Z                  U uname@GLIBC_2.17
2025-05-07T20:20:51.7304466Z                  U unlink@GLIBC_2.17
2025-05-07T20:20:51.7304703Z                  U _Unwind_Resume@GCC_3.0
2025-05-07T20:20:51.7304944Z                  U vsnprintf@GLIBC_2.17
2025-05-07T20:20:51.7305269Z                  U vtable for __cxxabiv1::__class_type_info@CXXABI_1.3
2025-05-07T20:20:51.7305628Z                  U vtable for __cxxabiv1::__si_class_type_info@CXXABI_1.3
2025-05-07T20:20:51.7305997Z                  U vtable for __cxxabiv1::__vmi_class_type_info@CXXABI_1.3
2025-05-07T20:20:51.7306429Z                  w __cxa_finalize@GLIBC_2.17
2025-05-07T20:20:51.7306675Z                  w __gmon_start__
2025-05-07T20:20:51.7306913Z                  w _ITM_deregisterTMCloneTable
2025-05-07T20:20:51.7307174Z                  w _ITM_registerTMCloneTable
2025-05-07T20:20:51.7307490Z [CHECK] Listing out external shared libraries linked:
2025-05-07T20:20:51.7307839Z + ldd ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so
2025-05-07T20:20:51.7308064Z 
2025-05-07T20:20:51.7349178Z 	linux-vdso.so.1 (0x0000ffff9cfcd000)
2025-05-07T20:20:51.7349453Z 	libtorch.so => not found
2025-05-07T20:20:51.7349653Z 	libc10.so => not found
2025-05-07T20:20:51.7349854Z 	libnvrtc.so.12 => not found
2025-05-07T20:20:51.7350069Z 	libc10_cuda.so => not found
2025-05-07T20:20:51.7350279Z 	libcuda.so.1 => not found
2025-05-07T20:20:51.7350488Z 	libnvidia-ml.so.1 => not found
2025-05-07T20:20:51.7350709Z 	libtorch_cpu.so => not found
2025-05-07T20:20:51.7350925Z 	libtorch_cuda.so => not found
2025-05-07T20:20:51.7351210Z 	libstdc++.so.6 => /lib64/libstdc++.so.6 (0x0000ffff9cd6a000)
2025-05-07T20:20:51.7351570Z 	libgcc_s.so.1 => /lib64/libgcc_s.so.1 (0x0000ffff9cd39000)
2025-05-07T20:20:51.7351974Z 	libc.so.6 => /lib64/libc.so.6 (0x0000ffff9cbc3000)
2025-05-07T20:20:51.7352274Z 	libm.so.6 => /lib64/libm.so.6 (0x0000ffff9cb02000)
2025-05-07T20:20:51.7352586Z 	/lib/ld-linux-aarch64.so.1 (0x0000ffff9cf8f000)
2025-05-07T20:20:51.7353676Z 
2025-05-07T20:20:51.7353778Z [CHECK] Displaying ELF information:
2025-05-07T20:20:51.7354352Z + readelf -d ./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so
2025-05-07T20:20:51.7354618Z 
2025-05-07T20:20:51.7367530Z 
2025-05-07T20:20:51.7367677Z Dynamic section at offset 0x6f8d8 contains 35 entries:
2025-05-07T20:20:51.7368003Z   Tag        Type                         Name/Value
2025-05-07T20:20:51.7368355Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch.so]
2025-05-07T20:20:51.7368779Z  0x0000000000000001 (NEEDED)             Shared library: [libc10.so]
2025-05-07T20:20:51.7369223Z  0x0000000000000001 (NEEDED)             Shared library: [libnvrtc.so.12]
2025-05-07T20:20:51.7369653Z  0x0000000000000001 (NEEDED)             Shared library: [libc10_cuda.so]
2025-05-07T20:20:51.7370077Z  0x0000000000000001 (NEEDED)             Shared library: [libcuda.so.1]
2025-05-07T20:20:51.7370506Z  0x0000000000000001 (NEEDED)             Shared library: [libnvidia-ml.so.1]
2025-05-07T20:20:51.7370948Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch_cpu.so]
2025-05-07T20:20:51.7371393Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch_cuda.so]
2025-05-07T20:20:51.7371831Z  0x0000000000000001 (NEEDED)             Shared library: [libstdc++.so.6]
2025-05-07T20:20:51.7372447Z  0x0000000000000001 (NEEDED)             Shared library: [libgcc_s.so.1]
2025-05-07T20:20:51.7372865Z  0x0000000000000001 (NEEDED)             Shared library: [libc.so.6]
2025-05-07T20:20:51.7373272Z  0x000000000000000e (SONAME)             Library soname: [asmjit.so]
2025-05-07T20:20:51.7373613Z  0x000000000000000c (INIT)               0x16f88
2025-05-07T20:20:51.7373880Z  0x000000000000000d (FINI)               0x525d0
2025-05-07T20:20:51.7374146Z  0x0000000000000019 (INIT_ARRAY)         0x7eaf0
2025-05-07T20:20:51.7374423Z  0x000000000000001b (INIT_ARRAYSZ)       16 (bytes)
2025-05-07T20:20:51.7374702Z  0x000000000000001a (FINI_ARRAY)         0x7eb00
2025-05-07T20:20:51.7374976Z  0x000000000000001c (FINI_ARRAYSZ)       8 (bytes)
2025-05-07T20:20:51.7375257Z  0x000000006ffffef5 (GNU_HASH)           0x1f0
2025-05-07T20:20:51.7375671Z  0x0000000000000005 (STRTAB)             0x63e0
2025-05-07T20:20:51.7375937Z  0x0000000000000006 (SYMTAB)             0x17f0
2025-05-07T20:20:51.7376219Z  0x000000000000000a (STRSZ)              45332 (bytes)
2025-05-07T20:20:51.7376511Z  0x000000000000000b (SYMENT)             24 (bytes)
2025-05-07T20:20:51.7376784Z  0x0000000000000003 (PLTGOT)             0x7ffe8
2025-05-07T20:20:51.7377070Z  0x0000000000000002 (PLTRELSZ)           8328 (bytes)
2025-05-07T20:20:51.7377519Z  0x0000000000000014 (PLTREL)             RELA
2025-05-07T20:20:51.7377792Z  0x0000000000000017 (JMPREL)             0x14f00
2025-05-07T20:20:51.7378057Z  0x0000000000000007 (RELA)               0x11bb8
2025-05-07T20:20:51.7378336Z  0x0000000000000008 (RELASZ)             13128 (bytes)
2025-05-07T20:20:51.7378630Z  0x0000000000000009 (RELAENT)            24 (bytes)
2025-05-07T20:20:51.7378912Z  0x000000006ffffffe (VERNEED)            0x11b48
2025-05-07T20:20:51.7379192Z  0x000000006fffffff (VERNEEDNUM)         3
2025-05-07T20:20:51.7379454Z  0x000000006ffffff0 (VERSYM)             0x114f4
2025-05-07T20:20:51.7379720Z  0x000000006ffffff9 (RELACOUNT)          4
2025-05-07T20:20:51.7379967Z  0x0000000000000000 (NULL)               0x0
2025-05-07T20:20:51.7380138Z 
2025-05-07T20:20:51.7380247Z ################################################################################
2025-05-07T20:20:51.7380438Z 
2025-05-07T20:20:51.7380442Z 
2025-05-07T20:20:51.7380541Z ################################################################################
2025-05-07T20:20:51.7380905Z [CHECK] BUILT LIBRARY: ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so
2025-05-07T20:20:51.7381260Z [CHECK] Listing out library size:
2025-05-07T20:20:51.7381595Z + du -h --block-size=1M ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so
2025-05-07T20:20:51.7381867Z 
2025-05-07T20:20:51.7386977Z 2	./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so
2025-05-07T20:20:51.7388638Z 
2025-05-07T20:20:51.7389993Z [CHECK] Listing out the GLIBC versions referenced by: ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so
2025-05-07T20:20:51.7390753Z + objdump -TC ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so | grep GLIBC_ | sed 's/.*GLIBC_\([.0-9]*\).*/GLIBC_\1/g' | sort -Vu | cat
2025-05-07T20:20:51.7391229Z 
2025-05-07T20:20:51.7525490Z GLIBC_2.17
2025-05-07T20:20:51.7525683Z GLIBC_2.27
2025-05-07T20:20:51.7527304Z 
2025-05-07T20:20:51.7527538Z 
2025-05-07T20:20:51.7528576Z [CHECK] Listing out the GLIBCXX versions referenced by: ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so
2025-05-07T20:20:51.7529372Z + objdump -TC ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so | grep GLIBCXX_ | sed 's/.*GLIBCXX_\([.0-9]*\).*/GLIBCXX_\1/g' | sort -Vu | cat
2025-05-07T20:20:51.7529864Z 
2025-05-07T20:20:51.7627002Z GLIBCXX_3.4
2025-05-07T20:20:51.7627161Z GLIBCXX_3.4.9
2025-05-07T20:20:51.7627323Z GLIBCXX_3.4.11
2025-05-07T20:20:51.7627482Z GLIBCXX_3.4.14
2025-05-07T20:20:51.7627640Z GLIBCXX_3.4.15
2025-05-07T20:20:51.7627813Z GLIBCXX_3.4.18
2025-05-07T20:20:51.7627981Z GLIBCXX_3.4.21
2025-05-07T20:20:51.7629554Z 
2025-05-07T20:20:51.7629746Z 
2025-05-07T20:20:51.7654384Z + nm -gDC ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so > /tmp/tmp.seHMYapQpj.symbols.txt
2025-05-07T20:20:51.7655047Z 
2025-05-07T20:20:51.7804075Z 
2025-05-07T20:20:51.7836090Z [CHECK] Total Number of symbols: 1846
2025-05-07T20:20:51.7856060Z [CHECK] Number of fbgemm symbols: 1516
2025-05-07T20:20:51.7879252Z + nm -gDCu ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so > /tmp/tmp.ambpQwdTYA.usymbols.txt
2025-05-07T20:20:51.7879632Z 
2025-05-07T20:20:51.7907427Z 
2025-05-07T20:20:51.7939315Z [CHECK] Listing out undefined symbols (125 total):
2025-05-07T20:20:51.7960029Z                  U abort@GLIBC_2.17
2025-05-07T20:20:51.7960455Z                  U asmjit::_abi_1_13::BaseAssembler::bind(asmjit::_abi_1_13::Label const&)
2025-05-07T20:20:51.7960842Z                  U asmjit::_abi_1_13::BaseAssembler::newLabel()
2025-05-07T20:20:51.7961444Z                  U asmjit::_abi_1_13::BaseEmitter::emitArgsAssignment(asmjit::_abi_1_13::FuncFrame const&, asmjit::_abi_1_13::FuncArgsAssignment const&)
2025-05-07T20:20:51.7962446Z                  U asmjit::_abi_1_13::BaseEmitter::emitEpilog(asmjit::_abi_1_13::FuncFrame const&)
2025-05-07T20:20:51.7962979Z                  U asmjit::_abi_1_13::BaseEmitter::_emitI(unsigned int, asmjit::_abi_1_13::Operand_ const&)
2025-05-07T20:20:51.7963747Z                  U asmjit::_abi_1_13::BaseEmitter::_emitI(unsigned int, asmjit::_abi_1_13::Operand_ const&, asmjit::_abi_1_13::Operand_ const&)
2025-05-07T20:20:51.7964595Z                  U asmjit::_abi_1_13::BaseEmitter::_emitI(unsigned int, asmjit::_abi_1_13::Operand_ const&, asmjit::_abi_1_13::Operand_ const&, asmjit::_abi_1_13::Operand_ const&)
2025-05-07T20:20:51.7965304Z                  U asmjit::_abi_1_13::BaseEmitter::emitProlog(asmjit::_abi_1_13::FuncFrame const&)
2025-05-07T20:20:51.7965714Z                  U asmjit::_abi_1_13::CodeHolder::~CodeHolder()
2025-05-07T20:20:51.7966151Z                  U asmjit::_abi_1_13::CodeHolder::CodeHolder(asmjit::_abi_1_13::Support::Temporary const*)
2025-05-07T20:20:51.7966690Z                  U asmjit::_abi_1_13::CodeHolder::init(asmjit::_abi_1_13::Environment const&, unsigned long)
2025-05-07T20:20:51.7967263Z                  U asmjit::_abi_1_13::FuncArgsAssignment::updateFuncFrame(asmjit::_abi_1_13::FuncFrame&) const
2025-05-07T20:20:51.7967910Z                  U asmjit::_abi_1_13::FuncDetail::init(asmjit::_abi_1_13::FuncSignature const&, asmjit::_abi_1_13::Environment const&)
2025-05-07T20:20:51.7968403Z                  U asmjit::_abi_1_13::FuncFrame::finalize()
2025-05-07T20:20:51.7968769Z                  U asmjit::_abi_1_13::FuncFrame::init(asmjit::_abi_1_13::FuncDetail const&)
2025-05-07T20:20:51.7969217Z                  U asmjit::_abi_1_13::JitRuntime::_add(void**, asmjit::_abi_1_13::CodeHolder*)
2025-05-07T20:20:51.7969603Z                  U asmjit::_abi_1_13::JitRuntime::~JitRuntime()
2025-05-07T20:20:51.7970198Z                  U asmjit::_abi_1_13::JitRuntime::JitRuntime(asmjit::_abi_1_13::JitAllocator::CreateParams const*)
2025-05-07T20:20:51.7970671Z                  U asmjit::_abi_1_13::x86::Assembler::~Assembler()
2025-05-07T20:20:51.7971064Z                  U asmjit::_abi_1_13::x86::Assembler::Assembler(asmjit::_abi_1_13::CodeHolder*)
2025-05-07T20:20:51.7971417Z                  U cpuinfo_get_packages
2025-05-07T20:20:51.7971669Z                  U cpuinfo_get_packages_count
2025-05-07T20:20:51.7971918Z                  U cpuinfo_initialize
2025-05-07T20:20:51.7972157Z                  U cpuinfo_isa
2025-05-07T20:20:51.7972390Z                  U __cxa_allocate_exception@CXXABI_1.3
2025-05-07T20:20:51.7972659Z                  U __cxa_atexit@GLIBC_2.17
2025-05-07T20:20:51.7972915Z                  U __cxa_begin_catch@CXXABI_1.3
2025-05-07T20:20:51.7973167Z                  U __cxa_end_catch@CXXABI_1.3
2025-05-07T20:20:51.7973433Z                  U __cxa_free_exception@CXXABI_1.3
2025-05-07T20:20:51.7973699Z                  U __cxa_guard_abort@CXXABI_1.3
2025-05-07T20:20:51.7973986Z                  U __cxa_guard_acquire@CXXABI_1.3
2025-05-07T20:20:51.7974256Z                  U __cxa_guard_release@CXXABI_1.3
2025-05-07T20:20:51.7974673Z                  U __cxa_init_primary_exception@CXXABI_1.3.11
2025-05-07T20:20:51.7974961Z                  U __cxa_rethrow@CXXABI_1.3
2025-05-07T20:20:51.7975236Z                  U __cxa_throw_bad_array_new_length@CXXABI_1.3.8
2025-05-07T20:20:51.7975517Z                  U __cxa_throw@CXXABI_1.3
2025-05-07T20:20:51.7975758Z                  U free@GLIBC_2.17
2025-05-07T20:20:51.7975975Z                  U fwrite@GLIBC_2.17
2025-05-07T20:20:51.7976209Z                  U __getauxval@GLIBC_2.17
2025-05-07T20:20:51.7976443Z                  U getenv@GLIBC_2.17
2025-05-07T20:20:51.7976685Z                  U __gxx_personality_v0@CXXABI_1.3
2025-05-07T20:20:51.7976935Z                  U log2f@GLIBC_2.27
2025-05-07T20:20:51.7977155Z                  U log2@GLIBC_2.17
2025-05-07T20:20:51.7977465Z                  U lrintf@GLIBC_2.17
2025-05-07T20:20:51.7977694Z                  U memcmp@GLIBC_2.17
2025-05-07T20:20:51.7977914Z                  U memcpy@GLIBC_2.17
2025-05-07T20:20:51.7978144Z                  U memmove@GLIBC_2.17
2025-05-07T20:20:51.7978374Z                  U memset@GLIBC_2.17
2025-05-07T20:20:51.7978608Z                  U __once_proxy@GLIBCXX_3.4.11
2025-05-07T20:20:51.7978881Z                  U operator delete[](void*)@GLIBCXX_3.4
2025-05-07T20:20:51.7979273Z                  U operator delete(void*, unsigned long)@CXXABI_1.3.9
2025-05-07T20:20:51.7979613Z                  U operator new(unsigned long)@GLIBCXX_3.4
2025-05-07T20:20:51.7979908Z                  U operator new[](unsigned long)@GLIBCXX_3.4
2025-05-07T20:20:51.7980195Z                  U posix_memalign@GLIBC_2.17
2025-05-07T20:20:51.7980439Z                  U pow@GLIBC_2.17
2025-05-07T20:20:51.7980668Z                  U pthread_self@GLIBC_2.17
2025-05-07T20:20:51.7980910Z                  U sqrtf@GLIBC_2.17
2025-05-07T20:20:51.7981292Z                  U std::__atomic_futex_unsigned_base::_M_futex_notify_all(unsigned int*)@GLIBCXX_3.4.21
2025-05-07T20:20:51.7982194Z                  U std::__atomic_futex_unsigned_base::_M_futex_wait_until(unsigned int*, unsigned int, bool, std::chrono::duration<long, std::ratio<1l, 1l> >, std::chrono::duration<long, std::ratio<1l, 1000000000l> >)@GLIBCXX_3.4.21
2025-05-07T20:20:51.7983102Z                  U std::bad_alloc::~bad_alloc()@GLIBCXX_3.4
2025-05-07T20:20:51.7983810Z                  U std::basic_ostream<char, std::char_traits<char> >& std::__ostream_insert<char, std::char_traits<char> >(std::basic_ostream<char, std::char_traits<char> >&, char const*, long)@GLIBCXX_3.4.9
2025-05-07T20:20:51.7984487Z                  U std::cerr@GLIBCXX_3.4
2025-05-07T20:20:51.7984729Z                  U std::cout@GLIBCXX_3.4
2025-05-07T20:20:51.7985017Z                  U std::ctype<char>::_M_widen_init() const@GLIBCXX_3.4.11
2025-05-07T20:20:51.7985660Z                  U std::__detail::_Prime_rehash_policy::_M_need_rehash(unsigned long, unsigned long, unsigned long) const@GLIBCXX_3.4.18
2025-05-07T20:20:51.7986297Z                  U std::__detail::_Prime_rehash_policy::_M_next_bkt(unsigned long) const@GLIBCXX_3.4.18
2025-05-07T20:20:51.7986684Z                  U stderr@GLIBC_2.17
2025-05-07T20:20:51.7987027Z                  U std::__exception_ptr::exception_ptr::exception_ptr(void*)@CXXABI_1.3.11
2025-05-07T20:20:51.7987424Z                  U std::__exception_ptr::exception_ptr::_M_addref()
2025-05-07T20:20:51.7987759Z                  U std::__exception_ptr::exception_ptr::_M_release()
2025-05-07T20:20:51.7988120Z                  U std::__future_base::_Result_base::_Result_base()@GLIBCXX_3.4.15
2025-05-07T20:20:51.7988524Z                  U std::__future_base::_Result_base::~_Result_base()@GLIBCXX_3.4.15
2025-05-07T20:20:51.7988875Z                  U std::future_category()@GLIBCXX_3.4.15
2025-05-07T20:20:51.7989193Z                  U std::future_error::~future_error()@GLIBCXX_3.4.14
2025-05-07T20:20:51.7989597Z                  U std::_Hash_bytes(void const*, unsigned long, unsigned long)@CXXABI_1.3.5
2025-05-07T20:20:51.7989974Z                  U std::ios_base::Init::~Init()@GLIBCXX_3.4
2025-05-07T20:20:51.7990367Z                  U std::ios_base::Init::Init()@GLIBCXX_3.4
2025-05-07T20:20:51.7990917Z                  U std::logic_error::logic_error(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)@GLIBCXX_3.4.21
2025-05-07T20:20:51.7991529Z                  U std::logic_error::logic_error(std::logic_error const&)@GLIBCXX_3.4.21
2025-05-07T20:20:51.7992060Z                  U std::__once_callable@GLIBCXX_3.4.11
2025-05-07T20:20:51.7992334Z                  U std::__once_call@GLIBCXX_3.4.11
2025-05-07T20:20:51.7992611Z                  U std::ostream::flush()@GLIBCXX_3.4
2025-05-07T20:20:51.7992895Z                  U std::ostream::operator<<(int)@GLIBCXX_3.4
2025-05-07T20:20:51.7993188Z                  U std::ostream::put(char)@GLIBCXX_3.4
2025-05-07T20:20:51.7993644Z                  U std::ostream& std::ostream::_M_insert<double>(double)@GLIBCXX_3.4.9
2025-05-07T20:20:51.7994061Z                  U std::ostream& std::ostream::_M_insert<long>(long)@GLIBCXX_3.4.9
2025-05-07T20:20:51.7994515Z                  U std::ostream& std::ostream::_M_insert<unsigned long>(unsigned long)@GLIBCXX_3.4.9
2025-05-07T20:20:51.7994964Z                  U std::_Rb_tree_decrement(std::_Rb_tree_node_base*)@GLIBCXX_3.4
2025-05-07T20:20:51.7995419Z                  U std::_Rb_tree_increment(std::_Rb_tree_node_base*)@GLIBCXX_3.4
2025-05-07T20:20:51.7995997Z                  U std::_Rb_tree_insert_and_rebalance(bool, std::_Rb_tree_node_base*, std::_Rb_tree_node_base*, std::_Rb_tree_node_base&)@GLIBCXX_3.4
2025-05-07T20:20:51.7996612Z                  U std::rethrow_exception(std::__exception_ptr::exception_ptr)@CXXABI_1.3.3
2025-05-07T20:20:51.7997056Z                  U std::runtime_error::runtime_error(char const*)@GLIBCXX_3.4.21
2025-05-07T20:20:51.7997422Z                  U std::runtime_error::~runtime_error()@GLIBCXX_3.4
2025-05-07T20:20:51.7997719Z                  U std::terminate()@GLIBCXX_3.4
2025-05-07T20:20:51.7997992Z                  U std::__throw_bad_alloc()@GLIBCXX_3.4
2025-05-07T20:20:51.7998273Z                  U std::__throw_bad_array_new_length()
2025-05-07T20:20:51.7998547Z                  U std::__throw_bad_cast()@GLIBCXX_3.4
2025-05-07T20:20:51.7998840Z                  U std::__throw_bad_function_call()@GLIBCXX_3.4.14
2025-05-07T20:20:51.7999161Z                  U std::__throw_future_error(int)@GLIBCXX_3.4.14
2025-05-07T20:20:51.7999486Z                  U std::__throw_length_error(char const*)@GLIBCXX_3.4
2025-05-07T20:20:51.7999814Z                  U std::__throw_logic_error(char const*)@GLIBCXX_3.4
2025-05-07T20:20:51.8000135Z                  U std::__throw_system_error(int)@GLIBCXX_3.4.11
2025-05-07T20:20:51.8000408Z                  U strcmp@GLIBC_2.17
2025-05-07T20:20:51.8000636Z                  U strstr@GLIBC_2.17
2025-05-07T20:20:51.8000986Z                  U typeinfo for std::bad_alloc@GLIBCXX_3.4
2025-05-07T20:20:51.8001341Z                  U typeinfo for std::__future_base::_Result_base@GLIBCXX_3.4.15
2025-05-07T20:20:51.8001707Z                  U typeinfo for std::future_error@GLIBCXX_3.4.14
2025-05-07T20:20:51.8002019Z                  U typeinfo for std::runtime_error@GLIBCXX_3.4
2025-05-07T20:20:51.8002299Z                  U _Unwind_Resume@GCC_3.0
2025-05-07T20:20:51.8002585Z                  U vtable for __cxxabiv1::__class_type_info@CXXABI_1.3
2025-05-07T20:20:51.8002941Z                  U vtable for __cxxabiv1::__si_class_type_info@CXXABI_1.3
2025-05-07T20:20:51.8003275Z                  U vtable for std::bad_alloc@GLIBCXX_3.4
2025-05-07T20:20:51.8003577Z                  U vtable for std::future_error@GLIBCXX_3.4.14
2025-05-07T20:20:51.8003864Z                  w __cxa_finalize@GLIBC_2.17
2025-05-07T20:20:51.8004100Z                  w __gmon_start__
2025-05-07T20:20:51.8004358Z                  w _ITM_deregisterTMCloneTable
2025-05-07T20:20:51.8004628Z                  w _ITM_registerTMCloneTable
2025-05-07T20:20:51.8004879Z                  w __pthread_key_create
2025-05-07T20:20:51.8005126Z                  w pthread_mutex_lock@GLIBC_2.17
2025-05-07T20:20:51.8005484Z                  w pthread_mutex_unlock@GLIBC_2.17
2025-05-07T20:20:51.8005739Z                  w pthread_once
2025-05-07T20:20:51.8005953Z                  w pthread_rwlock_rdlock
2025-05-07T20:20:51.8006198Z                  w pthread_rwlock_unlock
2025-05-07T20:20:51.8006440Z                  w pthread_rwlock_wrlock
2025-05-07T20:20:51.8006728Z [CHECK] Listing out external shared libraries linked:
2025-05-07T20:20:51.8007068Z + ldd ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so
2025-05-07T20:20:51.8007287Z 
2025-05-07T20:20:51.8028159Z 	linux-vdso.so.1 (0x0000ffff9d09f000)
2025-05-07T20:20:51.8028408Z 	libc10.so => not found
2025-05-07T20:20:51.8028603Z 	libnvrtc.so.12 => not found
2025-05-07T20:20:51.8028819Z 	libc10_cuda.so => not found
2025-05-07T20:20:51.8029181Z 	libcuda.so.1 => not found
2025-05-07T20:20:51.8029724Z 	asmjit.so => /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/./_skbuild/linux-aarch64-3.9/cmake-build/asmjit.so (0x0000ffff9ce8e000)
2025-05-07T20:20:51.8030291Z 	libnvidia-ml.so.1 => not found
2025-05-07T20:20:51.8030523Z 	libtorch.so => not found
2025-05-07T20:20:51.8030728Z 	libtorch_cpu.so => not found
2025-05-07T20:20:51.8030947Z 	libtorch_cuda.so => not found
2025-05-07T20:20:51.8031227Z 	libstdc++.so.6 => /lib64/libstdc++.so.6 (0x0000ffff9ccea000)
2025-05-07T20:20:51.8031777Z 	libm.so.6 => /lib64/libm.so.6 (0x0000ffff9cc29000)
2025-05-07T20:20:51.8032136Z 	libgcc_s.so.1 => /lib64/libgcc_s.so.1 (0x0000ffff9cbf8000)
2025-05-07T20:20:51.8032459Z 	libc.so.6 => /lib64/libc.so.6 (0x0000ffff9ca82000)
2025-05-07T20:20:51.8032762Z 	/lib/ld-linux-aarch64.so.1 (0x0000ffff9d061000)
2025-05-07T20:20:51.8033028Z 	libtorch.so => not found
2025-05-07T20:20:51.8033227Z 	libc10.so => not found
2025-05-07T20:20:51.8033418Z 	libnvrtc.so.12 => not found
2025-05-07T20:20:51.8033645Z 	libc10_cuda.so => not found
2025-05-07T20:20:51.8033853Z 	libcuda.so.1 => not found
2025-05-07T20:20:51.8034062Z 	libnvidia-ml.so.1 => not found
2025-05-07T20:20:51.8034290Z 	libtorch_cpu.so => not found
2025-05-07T20:20:51.8034513Z 	libtorch_cuda.so => not found
2025-05-07T20:20:51.8034673Z 
2025-05-07T20:20:51.8034762Z [CHECK] Displaying ELF information:
2025-05-07T20:20:51.8035080Z + readelf -d ./_skbuild/linux-aarch64-3.9/cmake-build/fbgemm.so
2025-05-07T20:20:51.8035332Z 
2025-05-07T20:20:51.8048889Z 
2025-05-07T20:20:51.8049087Z Dynamic section at offset 0x13e408 contains 40 entries:
2025-05-07T20:20:51.8049411Z   Tag        Type                         Name/Value
2025-05-07T20:20:51.8049788Z  0x0000000000000001 (NEEDED)             Shared library: [libc10.so]
2025-05-07T20:20:51.8050222Z  0x0000000000000001 (NEEDED)             Shared library: [libnvrtc.so.12]
2025-05-07T20:20:51.8050654Z  0x0000000000000001 (NEEDED)             Shared library: [libc10_cuda.so]
2025-05-07T20:20:51.8051418Z  0x0000000000000001 (NEEDED)             Shared library: [libcuda.so.1]
2025-05-07T20:20:51.8051857Z  0x0000000000000001 (NEEDED)             Shared library: [asmjit.so]
2025-05-07T20:20:51.8052289Z  0x0000000000000001 (NEEDED)             Shared library: [libnvidia-ml.so.1]
2025-05-07T20:20:51.8052732Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch.so]
2025-05-07T20:20:51.8053158Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch_cpu.so]
2025-05-07T20:20:51.8053604Z  0x0000000000000001 (NEEDED)             Shared library: [libtorch_cuda.so]
2025-05-07T20:20:51.8054048Z  0x0000000000000001 (NEEDED)             Shared library: [libstdc++.so.6]
2025-05-07T20:20:51.8054475Z  0x0000000000000001 (NEEDED)             Shared library: [libm.so.6]
2025-05-07T20:20:51.8054899Z  0x0000000000000001 (NEEDED)             Shared library: [libgcc_s.so.1]
2025-05-07T20:20:51.8055317Z  0x0000000000000001 (NEEDED)             Shared library: [libc.so.6]
2025-05-07T20:20:51.8055731Z  0x000000000000000e (SONAME)             Library soname: [fbgemm.so]
2025-05-07T20:20:51.8056123Z  0x000000000000000f (RPATH)              Library rpath: [$ORIGIN]
2025-05-07T20:20:51.8056581Z  0x000000000000000c (INIT)               0x5aff8
2025-05-07T20:20:51.8056851Z  0x000000000000000d (FINI)               0x115c10
2025-05-07T20:20:51.8057123Z  0x0000000000000019 (INIT_ARRAY)         0x14d180
2025-05-07T20:20:51.8057405Z  0x000000000000001b (INIT_ARRAYSZ)       64 (bytes)
2025-05-07T20:20:51.8057692Z  0x000000000000001a (FINI_ARRAY)         0x14d1c0
2025-05-07T20:20:51.8057975Z  0x000000000000001c (FINI_ARRAYSZ)       8 (bytes)
2025-05-07T20:20:51.8058253Z  0x000000006ffffef5 (GNU_HASH)           0x228
2025-05-07T20:20:51.8058523Z  0x0000000000000005 (STRTAB)             0xe290
2025-05-07T20:20:51.8058784Z  0x0000000000000006 (SYMTAB)             0x3538
2025-05-07T20:20:51.8059067Z  0x000000000000000a (STRSZ)              266195 (bytes)
2025-05-07T20:20:51.8059362Z  0x000000000000000b (SYMENT)             24 (bytes)
2025-05-07T20:20:51.8059766Z  0x0000000000000003 (PLTGOT)             0x14ffe8
2025-05-07T20:20:51.8060069Z  0x0000000000000002 (PLTRELSZ)           11328 (bytes)
2025-05-07T20:20:51.8060361Z  0x0000000000000014 (PLTREL)             RELA
2025-05-07T20:20:51.8060633Z  0x0000000000000017 (JMPREL)             0x583b8
2025-05-07T20:20:51.8060911Z  0x000000006ffffef6 (TLSDESC_PLT)        0x5cd60
2025-05-07T20:20:51.8061196Z  0x000000006ffffef7 (TLSDESC_GOT)        0x14ffd0
2025-05-07T20:20:51.8061589Z  0x0000000000000007 (RELA)               0x50228
2025-05-07T20:20:51.8061885Z  0x0000000000000008 (RELASZ)             33168 (bytes)
2025-05-07T20:20:51.8062178Z  0x0000000000000009 (RELAENT)            24 (bytes)
2025-05-07T20:20:51.8062461Z  0x000000006ffffffe (VERNEED)            0x500d8
2025-05-07T20:20:51.8062735Z  0x000000006fffffff (VERNEEDNUM)         4
2025-05-07T20:20:51.8062998Z  0x000000006ffffff0 (VERSYM)             0x4f264
2025-05-07T20:20:51.8063270Z  0x000000006ffffff9 (RELACOUNT)          10
2025-05-07T20:20:51.8063526Z  0x0000000000000000 (NULL)               0x0
2025-05-07T20:20:51.8063725Z 
2025-05-07T20:20:51.8063816Z ################################################################################
2025-05-07T20:20:51.8064007Z 
2025-05-07T20:20:51.8064012Z 
2025-05-07T20:20:51.8064191Z [CHECK] Verifying sample subset of symbols in the built libraries ...
2025-05-07T20:20:51.8261907Z [CHECK] Found symbol in ./_skbuild/linux-aarch64-3.9/cmake-build/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so: fbgemm_gpu::per_tensor_quantize_i8
2025-05-07T20:20:51.8266630Z ################################################################################
2025-05-07T20:20:51.8267086Z [BUILD] Wheel Audit: dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:51.8267435Z 
2025-05-07T20:20:51.8267940Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 auditwheel show dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:51.8268549Z 
2025-05-07T20:20:53.1827579Z WARNING: overwriting environment variables set in the machine
2025-05-07T20:20:53.1827990Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T20:20:54.1019323Z 
2025-05-07T20:20:54.1019669Z fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.1020130Z is consistent with the following platform tag: "linux_aarch64".
2025-05-07T20:20:54.1020388Z 
2025-05-07T20:20:54.1020530Z The wheel references external versioned symbols in these
2025-05-07T20:20:54.1020931Z system-provided shared libraries: libgcc_s.so.1 with versions
2025-05-07T20:20:54.1021306Z {'GCC_3.0'}, libstdc++.so.6 with versions {'CXXABI_1.3.11',
2025-05-07T20:20:54.1021665Z 'CXXABI_1.3.3', 'GLIBCXX_3.4.9', 'GLIBCXX_3.4.14', 'CXXABI_1.3.8',
2025-05-07T20:20:54.1022009Z 'GLIBCXX_3.4.11', 'GLIBCXX_3.4.18', 'GLIBCXX_3.4.15',
2025-05-07T20:20:54.1022349Z 'GLIBCXX_3.4.20', 'GLIBCXX_3.4', 'CXXABI_1.3.9', 'GLIBCXX_3.4.21',
2025-05-07T20:20:54.1022737Z 'CXXABI_1.3.7', 'CXXABI_1.3', 'CXXABI_1.3.5'}, libc.so.6 with versions
2025-05-07T20:20:54.1023136Z {'GLIBC_2.17'}, libm.so.6 with versions {'GLIBC_2.17', 'GLIBC_2.27'},
2025-05-07T20:20:54.1023536Z libcudart.so.12 with versions {'libcudart.so.12'}, libdl.so.2 with
2025-05-07T20:20:54.1024239Z versions {'GLIBC_2.17'}, libpthread.so.0 with versions {'GLIBC_2.17'},
2025-05-07T20:20:54.1024579Z librt.so.1 with versions {'GLIBC_2.17'}
2025-05-07T20:20:54.1024755Z 
2025-05-07T20:20:54.1024930Z This constrains the platform tag to "manylinux_2_27_aarch64". In order
2025-05-07T20:20:54.1025370Z to achieve a more compatible tag, you would need to recompile a new
2025-05-07T20:20:54.1025773Z wheel from source on a system with earlier versions of these
2025-05-07T20:20:54.1026112Z libraries, such as a recent manylinux image.
2025-05-07T20:20:54.1774900Z 
2025-05-07T20:20:54.1774907Z 
2025-05-07T20:20:54.1775246Z ################################################################################
2025-05-07T20:20:54.1776218Z [BUILD] Enumerating the built wheels ...
2025-05-07T20:20:54.1777337Z + ls -lth dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.1777665Z 
2025-05-07T20:20:54.1816545Z -rw-r--r--. 1 root root 18M May  7 20:20 dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.1818874Z 
2025-05-07T20:20:54.1819183Z [BUILD] Enumerating the wheel SHAs ...
2025-05-07T20:20:54.1820079Z + sha1sum dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.1820582Z 
2025-05-07T20:20:54.2201642Z 3bf552d7d600635ae0cf5414beb286a094ce6cd9  dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.2204179Z 
2025-05-07T20:20:54.2205613Z + sha256sum dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.2205952Z 
2025-05-07T20:20:54.2826450Z 0f1de2eab5eb014e36392ac258826d98112bad6fcdcc450eb46dd110edf76e04  dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.2828870Z 
2025-05-07T20:20:54.2830261Z + md5sum dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.2830591Z 
2025-05-07T20:20:54.3300270Z 70cf04a9fc7c83eaf5a832c0afa16d7d  dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.3302868Z 
2025-05-07T20:20:54.3303368Z [BUILD] FBGEMM-GPU build + package completed
2025-05-07T20:20:54.3336190Z [NOVA] Time taken to build the package: 2207 seconds / 00:36:47
2025-05-07T20:20:54.3336700Z [NOVA] Copying dist folder to root repo ...
2025-05-07T20:20:54.3337241Z + cp -r /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/dist /__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:20:54.3337598Z 
2025-05-07T20:20:54.3457230Z 
2025-05-07T20:20:54.3457609Z [NOVA] dist folder has been copied to /__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:20:54.3480309Z total 17488
2025-05-07T20:20:54.3480543Z drwxr-xr-x.  2 root root       82 May  7 20:20 .
2025-05-07T20:20:54.3481269Z drwxr-xr-x. 13 root root    16384 May  7 20:20 ..
2025-05-07T20:20:54.3481775Z -rw-r--r--.  1 root root 17889390 May  7 20:20 fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:20:54.4169709Z ##[group]Run set -euxo pipefail
2025-05-07T20:20:54.4170027Z [36;1mset -euxo pipefail[0m
2025-05-07T20:20:54.4170257Z [36;1msource "${BUILD_ENV_FILE}"[0m
2025-05-07T20:20:54.4170731Z [36;1mexport PYTORCH_VERSION="$(${CONDA_RUN} pip show torch | grep ^Version: | sed 's/Version: *//' | sed 's/+.\+//')"[0m
2025-05-07T20:20:54.4171225Z [36;1m${CONDA_RUN} python setup.py clean[0m
2025-05-07T20:20:54.4171543Z [36;1mecho "Successfully ran `python setup.py clean`"[0m
2025-05-07T20:20:54.4171866Z [36;1m${CONDA_RUN} python setup.py bdist_wheel[0m
2025-05-07T20:20:54.4172201Z shell: bash -l {0}
2025-05-07T20:20:54.4172364Z env:
2025-05-07T20:20:54.4172521Z   PYTHON_VERSION: 3.9
2025-05-07T20:20:54.4172709Z   PACKAGE_TYPE: wheel
2025-05-07T20:20:54.4172911Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T20:20:54.4173135Z   REF: 
2025-05-07T20:20:54.4173277Z   CU_VERSION: cu128
2025-05-07T20:20:54.4173460Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T20:20:54.4173654Z   ARCH: aarch64
2025-05-07T20:20:54.4174062Z   BUILD_TARGET: genai
2025-05-07T20:20:54.4174245Z   CHANNEL: nightly
2025-05-07T20:20:54.4174461Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T20:20:54.4174758Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T20:20:54.4175067Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T20:20:54.4175416Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:20:54.4175720Z ##[endgroup]
2025-05-07T20:20:54.6714724Z + source /__w/_temp/build_env_14891846315
2025-05-07T20:20:54.6715085Z ++ export BUILD_VERSION=0.1.0.dev20250507
2025-05-07T20:20:54.6715346Z ++ BUILD_VERSION=0.1.0.dev20250507
2025-05-07T20:20:54.6715594Z ++ export CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T20:20:54.6715846Z ++ CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T20:20:54.6716492Z ++ export CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T20:20:54.6716766Z ++ CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T20:20:54.6716994Z ++ export FORCE_CUDA=1
2025-05-07T20:20:54.6717197Z ++ FORCE_CUDA=1
2025-05-07T20:20:54.6718078Z ++ export PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:20:54.6719844Z ++ PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:20:54.6721505Z ++ export PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:20:54.6723257Z ++ PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:20:54.6724499Z ++ export 'PIP_INSTALL_TORCH=pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T20:20:54.6746968Z ++ PIP_INSTALL_TORCH='pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T20:20:54.6747781Z ++ export PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T20:20:54.6748166Z ++ PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T20:20:54.6748467Z ++ export PYTORCH_VERSION_SUFFIX=
2025-05-07T20:20:54.6748695Z ++ PYTORCH_VERSION_SUFFIX=
2025-05-07T20:20:54.6748994Z ++ export 'TORCH_CUDA_ARCH_LIST=5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:20:54.6749387Z ++ TORCH_CUDA_ARCH_LIST='5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:20:54.6749727Z ++ export VERSION_SUFFIX=
2025-05-07T20:20:54.6749917Z ++ VERSION_SUFFIX=
2025-05-07T20:20:54.6750091Z ++ export WHEEL_DIR=
2025-05-07T20:20:54.6750705Z ++ WHEEL_DIR=
2025-05-07T20:20:54.6750924Z ++ FBGEMM_DIR=/__w/FBGEMM/FBGEMM
2025-05-07T20:20:54.6751200Z ++ export FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:20:54.6751513Z ++ FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:20:54.6751885Z +++ pwd
2025-05-07T20:20:54.6752118Z ++ working_dir=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:20:54.6752568Z ++ [[ /__w/FBGEMM/FBGEMM/pytorch/FBGEMM == \/\_\_\w\/\F\B\G\E\M\M\/\F\B\G\E\M\M\/\p\y\t\o\r\c\h\/\F\B\G\E\M\M ]]
2025-05-07T20:20:54.6752968Z ++ cd fbgemm_gpu
2025-05-07T20:20:54.6753147Z ++ export BUILD_FROM_NOVA=1
2025-05-07T20:20:54.6753350Z ++ BUILD_FROM_NOVA=1
2025-05-07T20:20:54.6753523Z ++ [[ cu128 == \c\u* ]]
2025-05-07T20:20:54.6753843Z ++ echo 'Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:20:54.6754253Z ++ [[ /__w/_temp/conda_environment_14891846315 != '' ]]
2025-05-07T20:20:54.6754700Z ++ export 'CONDA_RUN=conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:20:54.6755425Z ++ CONDA_RUN='conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:20:54.6755939Z ++ echo 'conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:20:54.6756306Z ++ [[ cu128 == \c\u\1\2\8 ]]
2025-05-07T20:20:54.6756565Z ++ export 'TORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:20:54.6756896Z ++ TORCH_CUDA_ARCH_LIST='7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:20:54.6757228Z ++ echo 'Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:20:54.6757687Z ++ conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 pip show torch
2025-05-07T20:20:54.6758064Z ++ grep '^Version:'
2025-05-07T20:20:54.6758243Z ++ sed 's/Version: *//'
2025-05-07T20:20:54.6758541Z ++ sed 's/+.\+//'
2025-05-07T20:20:54.6758832Z Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0
2025-05-07T20:20:54.6759292Z conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:20:54.6759688Z Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T20:20:55.9486157Z WARNING: overwriting environment variables set in the machine
2025-05-07T20:20:55.9486538Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T20:20:56.5868683Z + export PYTORCH_VERSION=2.8.0.dev20250507
2025-05-07T20:20:56.5868989Z + PYTORCH_VERSION=2.8.0.dev20250507
2025-05-07T20:20:56.5869415Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python setup.py clean
2025-05-07T20:20:57.8550878Z WARNING: overwriting environment variables set in the machine
2025-05-07T20:20:57.8551246Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T20:20:59.4889658Z [SETUP.PY] ARGV: ['setup.py', 'clean']
2025-05-07T20:20:59.4890648Z [SETUP.PY] Parsed setup.py arguments: Namespace(verbose=False, debug=False, dryrun=False, build_target='default', build_variant='cuda', package_channel='nightly', nvml_lib_path=None, nccl_lib_path=None, use_fb_only=False, cxxprefix=None)
2025-05-07T20:20:59.4891581Z [SETUP.PY] Other arguments: ['clean']
2025-05-07T20:20:59.4891965Z [SETUP.PY] Running under Nova workflow context (clean or build wheel step) ... exiting
2025-05-07T20:20:59.9048696Z ++ python setup.py clean
2025-05-07T20:21:00.8750618Z Traceback (most recent call last):
2025-05-07T20:21:00.8751076Z   File "/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu/setup.py", line 21, in <module>
2025-05-07T20:21:00.8751522Z     import setuptools_git_versioning as gitversion
2025-05-07T20:21:00.8751955Z ModuleNotFoundError: No module named 'setuptools_git_versioning'
2025-05-07T20:21:00.9005654Z + echo 'Successfully ran '
2025-05-07T20:21:00.9006208Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python setup.py bdist_wheel
2025-05-07T20:21:00.9006680Z Successfully ran 
2025-05-07T20:21:02.1940686Z WARNING: overwriting environment variables set in the machine
2025-05-07T20:21:02.1941070Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T20:21:03.9624812Z [SETUP.PY] ARGV: ['setup.py', 'bdist_wheel']
2025-05-07T20:21:03.9625815Z [SETUP.PY] Parsed setup.py arguments: Namespace(verbose=False, debug=False, dryrun=False, build_target='default', build_variant='cuda', package_channel='nightly', nvml_lib_path=None, nccl_lib_path=None, use_fb_only=False, cxxprefix=None)
2025-05-07T20:21:03.9626731Z [SETUP.PY] Other arguments: ['bdist_wheel']
2025-05-07T20:21:03.9627136Z [SETUP.PY] Running under Nova workflow context (clean or build wheel step) ... exiting
2025-05-07T20:21:04.4801594Z ##[group]Run set -euxo pipefail
2025-05-07T20:21:04.4802007Z [36;1mset -euxo pipefail[0m
2025-05-07T20:21:04.4802234Z [36;1msource "${BUILD_ENV_FILE}"[0m
2025-05-07T20:21:04.4802532Z [36;1mfor pkg in pytorch/FBGEMM/dist/*-linux_*.whl; do[0m
2025-05-07T20:21:04.4802845Z [36;1m  # if the glob didn't match anything[0m
2025-05-07T20:21:04.4803134Z [36;1m  if [[ ! -e $pkg ]]; then[0m
2025-05-07T20:21:04.4803355Z [36;1m      continue[0m
2025-05-07T20:21:04.4803547Z [36;1m  fi[0m
2025-05-07T20:21:04.4803933Z [36;1m  abs_pkg=$(realpath $pkg)[0m
2025-05-07T20:21:04.4804271Z [36;1m  ./test-infra/.github/scripts/repair_manylinux_2_28.sh $abs_pkg[0m
2025-05-07T20:21:04.4804605Z [36;1mdone[0m
2025-05-07T20:21:04.4804879Z shell: bash -l {0}
2025-05-07T20:21:04.4805053Z env:
2025-05-07T20:21:04.4805207Z   PYTHON_VERSION: 3.9
2025-05-07T20:21:04.4805397Z   PACKAGE_TYPE: wheel
2025-05-07T20:21:04.4805589Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T20:21:04.4805794Z   REF: 
2025-05-07T20:21:04.4805978Z   CU_VERSION: cu128
2025-05-07T20:21:04.4806160Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T20:21:04.4806361Z   ARCH: aarch64
2025-05-07T20:21:04.4806532Z   BUILD_TARGET: genai
2025-05-07T20:21:04.4806708Z   CHANNEL: nightly
2025-05-07T20:21:04.4806920Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T20:21:04.4807382Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T20:21:04.4807693Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:04.4808049Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:04.4808376Z   PACKAGE_NAME: fbgemm_gpu
2025-05-07T20:21:04.4808575Z   SMOKE_TEST_SCRIPT: 
2025-05-07T20:21:04.4808756Z ##[endgroup]
2025-05-07T20:21:04.6763766Z + source /__w/_temp/build_env_14891846315
2025-05-07T20:21:04.6764122Z ++ export BUILD_VERSION=0.1.0.dev20250507
2025-05-07T20:21:04.6764373Z ++ BUILD_VERSION=0.1.0.dev20250507
2025-05-07T20:21:04.6764617Z ++ export CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T20:21:04.6764907Z ++ CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T20:21:04.6765149Z ++ export CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T20:21:04.6765400Z ++ CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T20:21:04.6765623Z ++ export FORCE_CUDA=1
2025-05-07T20:21:04.6765805Z ++ FORCE_CUDA=1
2025-05-07T20:21:04.6766684Z ++ export PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:21:04.6768307Z ++ PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:21:04.6769961Z ++ export PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:21:04.6771697Z ++ PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:21:04.6772938Z ++ export 'PIP_INSTALL_TORCH=pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T20:21:04.6773633Z ++ PIP_INSTALL_TORCH='pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T20:21:04.6774191Z ++ export PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T20:21:04.6774566Z ++ PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T20:21:04.6774861Z ++ export PYTORCH_VERSION_SUFFIX=
2025-05-07T20:21:04.6775091Z ++ PYTORCH_VERSION_SUFFIX=
2025-05-07T20:21:04.6775386Z ++ export 'TORCH_CUDA_ARCH_LIST=5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:21:04.6776354Z ++ TORCH_CUDA_ARCH_LIST='5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:21:04.6776699Z ++ export VERSION_SUFFIX=
2025-05-07T20:21:04.6776895Z ++ VERSION_SUFFIX=
2025-05-07T20:21:04.6777069Z ++ export WHEEL_DIR=
2025-05-07T20:21:04.6777238Z ++ WHEEL_DIR=
2025-05-07T20:21:04.6777416Z ++ FBGEMM_DIR=/__w/FBGEMM/FBGEMM
2025-05-07T20:21:04.6777684Z ++ export FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:21:04.6778004Z ++ FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:21:04.6778429Z +++ pwd
2025-05-07T20:21:04.6778587Z ++ working_dir=/__w/FBGEMM/FBGEMM
2025-05-07T20:21:04.6778927Z ++ [[ /__w/FBGEMM/FBGEMM == \/\_\_\w\/\F\B\G\E\M\M\/\F\B\G\E\M\M\/\p\y\t\o\r\c\h\/\F\B\G\E\M\M ]]
2025-05-07T20:21:04.6779273Z ++ export BUILD_FROM_NOVA=1
2025-05-07T20:21:04.6779474Z ++ BUILD_FROM_NOVA=1
2025-05-07T20:21:04.6779650Z ++ [[ cu128 == \c\u* ]]
2025-05-07T20:21:04.6779968Z ++ echo 'Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:21:04.6780366Z ++ [[ /__w/_temp/conda_environment_14891846315 != '' ]]
2025-05-07T20:21:04.6780808Z ++ export 'CONDA_RUN=conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:21:04.6781366Z ++ CONDA_RUN='conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:21:04.6782001Z ++ echo 'conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:21:04.6782366Z ++ [[ cu128 == \c\u\1\2\8 ]]
2025-05-07T20:21:04.6782626Z ++ export 'TORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:21:04.6782957Z ++ TORCH_CUDA_ARCH_LIST='7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:21:04.6783286Z ++ echo 'Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:21:04.6783622Z + for pkg in pytorch/FBGEMM/dist/*-linux_*.whl
2025-05-07T20:21:04.6783910Z + [[ ! -e pytorch/FBGEMM/dist/*-linux_*.whl ]]
2025-05-07T20:21:04.6784149Z + continue
2025-05-07T20:21:04.6784427Z Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0
2025-05-07T20:21:04.6784887Z conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:04.6785280Z Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T20:21:04.6842833Z Prepare all required actions
2025-05-07T20:21:04.6843202Z Getting action download info
2025-05-07T20:21:04.8223182Z ##[group]Run ./test-infra/.github/actions/run-script-with-cache
2025-05-07T20:21:04.8223500Z with:
2025-05-07T20:21:04.8223666Z   repository: pytorch/FBGEMM
2025-05-07T20:21:04.8223936Z   script: ../.github/scripts/nova_postscript.bash
2025-05-07T20:21:04.8224209Z   is_windows: disabled
2025-05-07T20:21:04.8224381Z env:
2025-05-07T20:21:04.8224527Z   PYTHON_VERSION: 3.9
2025-05-07T20:21:04.8224715Z   PACKAGE_TYPE: wheel
2025-05-07T20:21:04.8224903Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T20:21:04.8225104Z   REF: 
2025-05-07T20:21:04.8225248Z   CU_VERSION: cu128
2025-05-07T20:21:04.8225429Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T20:21:04.8225627Z   ARCH: aarch64
2025-05-07T20:21:04.8225793Z   BUILD_TARGET: genai
2025-05-07T20:21:04.8225974Z   CHANNEL: nightly
2025-05-07T20:21:04.8226182Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T20:21:04.8226513Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T20:21:04.8226818Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:04.8227186Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:04.8227487Z ##[endgroup]
2025-05-07T20:21:04.8248534Z ##[group]Run echo "today=$(/bin/date -u '+%Y%m%d')d" >> "${GITHUB_OUTPUT}"
2025-05-07T20:21:04.8249005Z [36;1mecho "today=$(/bin/date -u '+%Y%m%d')d" >> "${GITHUB_OUTPUT}"[0m
2025-05-07T20:21:04.8249439Z shell: bash --noprofile --norc -e -o pipefail {0}
2025-05-07T20:21:04.8249696Z env:
2025-05-07T20:21:04.8249847Z   PYTHON_VERSION: 3.9
2025-05-07T20:21:04.8250040Z   PACKAGE_TYPE: wheel
2025-05-07T20:21:04.8250231Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T20:21:04.8250429Z   REF: 
2025-05-07T20:21:04.8250572Z   CU_VERSION: cu128
2025-05-07T20:21:04.8250761Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T20:21:04.8250957Z   ARCH: aarch64
2025-05-07T20:21:04.8251130Z   BUILD_TARGET: genai
2025-05-07T20:21:04.8251330Z   CHANNEL: nightly
2025-05-07T20:21:04.8251545Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T20:21:04.8251859Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T20:21:04.8252167Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:04.8252519Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:04.8253048Z ##[endgroup]
2025-05-07T20:21:04.9930185Z ##[group]Run # Windows scripts needs cleanup on audio and vision, todo remove this once resolved
2025-05-07T20:21:04.9930838Z [36;1m# Windows scripts needs cleanup on audio and vision, todo remove this once resolved[0m
2025-05-07T20:21:04.9931253Z [36;1mif [[ disabled == 'disabled' ]]; then[0m
2025-05-07T20:21:04.9931530Z [36;1m  set -euxo pipefail[0m
2025-05-07T20:21:04.9931730Z [36;1mfi[0m
2025-05-07T20:21:04.9931903Z [36;1msource "${BUILD_ENV_FILE}"[0m
2025-05-07T20:21:04.9932120Z [36;1m[0m
2025-05-07T20:21:04.9932284Z [36;1mif [[ ! -f ${SCRIPT} ]]; then[0m
2025-05-07T20:21:04.9932691Z [36;1m  echo "::error::Specified script file (${SCRIPT}) not found, not going execute it"[0m
2025-05-07T20:21:04.9933274Z [36;1m  exit 1[0m
2025-05-07T20:21:04.9933438Z [36;1melse[0m
2025-05-07T20:21:04.9933620Z [36;1m  if [[ ${SCRIPT} == *.bat ]]; then[0m
2025-05-07T20:21:04.9933890Z [36;1m    ${CONDA_RUN} ${SCRIPT}[0m
2025-05-07T20:21:04.9934104Z [36;1m  else[0m
2025-05-07T20:21:04.9934288Z [36;1m    ${CONDA_RUN} bash ${SCRIPT}[0m
2025-05-07T20:21:04.9934515Z [36;1m  fi[0m
2025-05-07T20:21:04.9934671Z [36;1mfi[0m
2025-05-07T20:21:04.9934911Z shell: bash -l {0}
2025-05-07T20:21:04.9935079Z env:
2025-05-07T20:21:04.9935239Z   PYTHON_VERSION: 3.9
2025-05-07T20:21:04.9935423Z   PACKAGE_TYPE: wheel
2025-05-07T20:21:04.9935619Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T20:21:04.9935814Z   REF: 
2025-05-07T20:21:04.9935960Z   CU_VERSION: cu128
2025-05-07T20:21:04.9936139Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T20:21:04.9936335Z   ARCH: aarch64
2025-05-07T20:21:04.9937005Z   BUILD_TARGET: genai
2025-05-07T20:21:04.9937233Z   CHANNEL: nightly
2025-05-07T20:21:04.9937445Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T20:21:04.9937757Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T20:21:04.9938068Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:04.9938422Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:04.9938777Z   SCRIPT: ../.github/scripts/nova_postscript.bash
2025-05-07T20:21:04.9939036Z ##[endgroup]
2025-05-07T20:21:05.0819779Z + source /__w/_temp/build_env_14891846315
2025-05-07T20:21:05.0820108Z ++ export BUILD_VERSION=0.1.0.dev20250507
2025-05-07T20:21:05.0820362Z ++ BUILD_VERSION=0.1.0.dev20250507
2025-05-07T20:21:05.0820608Z ++ export CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T20:21:05.0820879Z ++ CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T20:21:05.0821118Z ++ export CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T20:21:05.0821370Z ++ CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T20:21:05.0821632Z ++ export FORCE_CUDA=1
2025-05-07T20:21:05.0821814Z ++ FORCE_CUDA=1
2025-05-07T20:21:05.0822690Z ++ export PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:21:05.0824324Z ++ PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:21:05.0825980Z ++ export PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:21:05.0827716Z ++ PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:21:05.0828962Z ++ export 'PIP_INSTALL_TORCH=pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T20:21:05.0829662Z ++ PIP_INSTALL_TORCH='pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T20:21:05.0830672Z ++ export PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T20:21:05.0831045Z ++ PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T20:21:05.0831349Z ++ export PYTORCH_VERSION_SUFFIX=
2025-05-07T20:21:05.0831575Z ++ PYTORCH_VERSION_SUFFIX=
2025-05-07T20:21:05.0831985Z ++ export 'TORCH_CUDA_ARCH_LIST=5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:21:05.0832381Z ++ TORCH_CUDA_ARCH_LIST='5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:21:05.0832685Z ++ export VERSION_SUFFIX=
2025-05-07T20:21:05.0832880Z ++ VERSION_SUFFIX=
2025-05-07T20:21:05.0833065Z ++ export WHEEL_DIR=
2025-05-07T20:21:05.0833243Z ++ WHEEL_DIR=
2025-05-07T20:21:05.0833585Z ++ FBGEMM_DIR=/__w/FBGEMM/FBGEMM
2025-05-07T20:21:05.0833857Z ++ export FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:21:05.0834169Z ++ FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:21:05.0834427Z +++ pwd
2025-05-07T20:21:05.0834641Z ++ working_dir=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:21:05.0835090Z ++ [[ /__w/FBGEMM/FBGEMM/pytorch/FBGEMM == \/\_\_\w\/\F\B\G\E\M\M\/\F\B\G\E\M\M\/\p\y\t\o\r\c\h\/\F\B\G\E\M\M ]]
2025-05-07T20:21:05.0835493Z ++ cd fbgemm_gpu
2025-05-07T20:21:05.0835668Z ++ export BUILD_FROM_NOVA=1
2025-05-07T20:21:05.0835868Z ++ BUILD_FROM_NOVA=1
2025-05-07T20:21:05.0836043Z ++ [[ cu128 == \c\u* ]]
2025-05-07T20:21:05.0836360Z ++ echo 'Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:21:05.0837164Z ++ [[ /__w/_temp/conda_environment_14891846315 != '' ]]
2025-05-07T20:21:05.0837908Z ++ export 'CONDA_RUN=conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:21:05.0838479Z ++ CONDA_RUN='conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:21:05.0839005Z ++ echo 'conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:21:05.0839376Z ++ [[ cu128 == \c\u\1\2\8 ]]
2025-05-07T20:21:05.0839637Z ++ export 'TORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:21:05.0839968Z ++ TORCH_CUDA_ARCH_LIST='7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:21:05.0840302Z ++ echo 'Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:21:05.0840646Z + [[ ! -f ../.github/scripts/nova_postscript.bash ]]
2025-05-07T20:21:05.0840965Z + [[ ../.github/scripts/nova_postscript.bash == *.bat ]]
2025-05-07T20:21:05.0841500Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 bash ../.github/scripts/nova_postscript.bash
2025-05-07T20:21:05.0842120Z Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0
2025-05-07T20:21:05.0842575Z conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:05.0842986Z Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T20:21:06.4788578Z WARNING: overwriting environment variables set in the machine
2025-05-07T20:21:06.4788957Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T20:21:06.5603551Z [NOVA] Current working directory: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T20:21:06.5608529Z [NOVA] Current working directory: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:21:07.0235990Z ################################################################################
2025-05-07T20:21:07.0236347Z Environment Variables:
2025-05-07T20:21:07.0256163Z CONDA_SHLVL=2
2025-05-07T20:21:07.0257422Z LD_LIBRARY_PATH=/usr/local/lib:/usr/local/cuda-12.8/lib64:/opt/rh/gcc-toolset-11/root/usr/lib64:/opt/rh/gcc-toolset-11/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64:/opt/rh/gcc-toolset-14/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64/dyninst:/opt/rh/gcc-toolset-14/root/usr/lib/dyninst
2025-05-07T20:21:07.0258659Z CONDA_EXE=/opt/conda/bin/conda
2025-05-07T20:21:07.0258870Z KERN_NAME=Linux
2025-05-07T20:21:07.0259038Z ARCH=aarch64
2025-05-07T20:21:07.0259242Z MODULES_RUN_QUARANTINE=LD_LIBRARY_PATH LD_PRELOAD
2025-05-07T20:21:07.0259972Z LANG=en_US.UTF-8
2025-05-07T20:21:07.0260147Z HISTCONTROL=ignoredups
2025-05-07T20:21:07.0260361Z AUDITWHEEL_POLICY=manylinux_2_28
2025-05-07T20:21:07.0260588Z HOSTNAME=c0ec2cda8dde
2025-05-07T20:21:07.0260908Z JAVA_LD_LIBRARY_PATH=/__w/_temp/conda_environment_14891846315/lib/jvm/lib/server
2025-05-07T20:21:07.0261277Z GITHUB_REF_NAME=4066/merge
2025-05-07T20:21:07.0261531Z OLDPWD=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T20:21:07.0261809Z NVCC_VERBOSE=1
2025-05-07T20:21:07.0262024Z GITHUB_API_URL=https://api.github.com
2025-05-07T20:21:07.0262289Z PLATFORM_NAME_LC=linux-aarch64
2025-05-07T20:21:07.0262521Z GITHUB_REPOSITORY_OWNER_ID=21003710
2025-05-07T20:21:07.0262763Z CHANNEL=nightly
2025-05-07T20:21:07.0263136Z GITHUB_STEP_SUMMARY=/__w/_temp/_runner_file_commands/step_summary_8637f752-48d8-46da-bd55-a34f5e4b183b
2025-05-07T20:21:07.0263765Z CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T20:21:07.0264149Z GITHUB_ACTION_PATH=/__w/FBGEMM/FBGEMM/./test-infra/.github/actions/run-script-with-cache
2025-05-07T20:21:07.0264558Z GITHUB_RUN_ATTEMPT=1
2025-05-07T20:21:07.0264759Z GSETTINGS_SCHEMA_DIR_CONDA_BACKUP=
2025-05-07T20:21:07.0264989Z MACHINE_NAME_LC=aarch64
2025-05-07T20:21:07.0265188Z RUNNER_TOOL_CACHE=/__w/_tool
2025-05-07T20:21:07.0265550Z CONDA_RUN=conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:07.0265990Z CONDA_PREFIX=/__w/_temp/conda_environment_14891846315
2025-05-07T20:21:07.0266322Z JAVA_HOME=/__w/_temp/conda_environment_14891846315/lib/jvm
2025-05-07T20:21:07.0266618Z BUILD_VERSION=0.1.0.dev20250507
2025-05-07T20:21:07.0266869Z DEVTOOLSET_ROOTPATH=/opt/rh/gcc-toolset-14/root
2025-05-07T20:21:07.0267432Z CONDA_ENV=/__w/_temp/conda_environment_14891846315
2025-05-07T20:21:07.0267731Z RUNNER_ENVIRONMENT=self-hosted
2025-05-07T20:21:07.0267951Z MACHINE_NAME=aarch64
2025-05-07T20:21:07.0268154Z GITHUB_REPOSITORY_OWNER=pytorch
2025-05-07T20:21:07.0268368Z GITHUB_ACTIONS=true
2025-05-07T20:21:07.0268547Z KERN_NAME_LC=linux
2025-05-07T20:21:07.0268984Z GITHUB_WORKFLOW_REF=pytorch/FBGEMM/.github/workflows/build_wheels_genai_linux_aarch64.yml@refs/pull/4066/merge
2025-05-07T20:21:07.0269487Z which_declare=declare -f
2025-05-07T20:21:07.0269673Z CI=true
2025-05-07T20:21:07.0269844Z CUDNN_LIBRARY=/usr/local/cuda-12.8/lib64
2025-05-07T20:21:07.0270141Z MODULES_CMD=/usr/share/Modules/libexec/modulecmd.tcl
2025-05-07T20:21:07.0270410Z USER=root
2025-05-07T20:21:07.0270581Z GITHUB_HEAD_REF=bm/genai-rocm-oss-6
2025-05-07T20:21:07.0270849Z CONDA_PREFIX_1=/opt/conda
2025-05-07T20:21:07.0271039Z CU_VERSION=cu128
2025-05-07T20:21:07.0271211Z GITHUB_ACTOR=q10
2025-05-07T20:21:07.0271472Z GITHUB_ACTION_REF=
2025-05-07T20:21:07.0271802Z GITHUB_ACTION=__self_4
2025-05-07T20:21:07.0272011Z GITHUB_REF_PROTECTED=false
2025-05-07T20:21:07.0272214Z WHEEL_DIR=
2025-05-07T20:21:07.0272569Z ***
2025-05-07T20:21:07.0272724Z VERSION_SUFFIX=
2025-05-07T20:21:07.0272897Z HOME=/github/home
2025-05-07T20:21:07.0273091Z CONDA_PYTHON_EXE=/opt/conda/bin/python
2025-05-07T20:21:07.0273507Z GITHUB_STATE=/__w/_temp/_runner_file_commands/save_state_8637f752-48d8-46da-bd55-a34f5e4b183b
2025-05-07T20:21:07.0273946Z ARTIFACT_NAME=pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T20:21:07.0274214Z CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T20:21:07.0274433Z GITHUB_ACTION_REPOSITORY=
2025-05-07T20:21:07.0274633Z GITHUB_REF_TYPE=branch
2025-05-07T20:21:07.0290273Z RUNNER_TEMP=/__w/_temp
2025-05-07T20:21:07.0290641Z BUILD_FROM_NOVA=1
2025-05-07T20:21:07.0290834Z GITHUB_RETENTION_DAYS=90
2025-05-07T20:21:07.0291015Z REF=
2025-05-07T20:21:07.0291161Z GITHUB_ENV=TRUE
2025-05-07T20:21:07.0291352Z SSL_CERT_FILE=/opt/_internal/certs.pem
2025-05-07T20:21:07.0291648Z RUNNER_WORKSPACE=/__w/FBGEMM
2025-05-07T20:21:07.0291870Z GITHUB_REF=refs/pull/4066/merge
2025-05-07T20:21:07.0292142Z GITHUB_SHA=a2f4c52051596e74bc8c16e3d2867a4ecdd271e0
2025-05-07T20:21:07.0292562Z GSETTINGS_SCHEMA_DIR=/__w/_temp/conda_environment_14891846315/share/glib-2.0/schemas
2025-05-07T20:21:07.0293782Z __CONDA_SHLVL_1_LD_LIBRARY_PATH=/opt/rh/gcc-toolset-11/root/usr/lib64:/opt/rh/gcc-toolset-11/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64:/opt/rh/gcc-toolset-14/root/usr/lib:/opt/rh/gcc-toolset-14/root/usr/lib64/dyninst:/opt/rh/gcc-toolset-14/root/usr/lib/dyninst
2025-05-07T20:21:07.0295125Z GITHUB_REPOSITORY_ID=150154628
2025-05-07T20:21:07.0295340Z AUDITWHEEL_ARCH=aarch64
2025-05-07T20:21:07.0295535Z GITHUB_RUN_ID=14891846315
2025-05-07T20:21:07.0295744Z AUDITWHEEL_PLAT=manylinux_2_28_aarch64
2025-05-07T20:21:07.0296018Z FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:21:07.0296314Z BUILD_ENV_FILE=/__w/_temp/build_env_14891846315
2025-05-07T20:21:07.0296566Z RUNNER_ARCH=ARM64
2025-05-07T20:21:07.0296789Z GITHUB_SERVER_URL=https://github.com
2025-05-07T20:21:07.0297254Z PIP_INSTALL_TORCH=pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128
2025-05-07T20:21:07.0297822Z REPOSITORY=pytorch/FBGEMM
2025-05-07T20:21:07.0298023Z GITHUB_ACTOR_ID=255046
2025-05-07T20:21:07.0298509Z NVCC_PREPEND_FLAGS=-std=c++20 -Xcompiler -std=c++20 -ccbin /opt/rh/gcc-toolset-11/root/usr/bin/c++ -allow-unsupported-compiler
2025-05-07T20:21:07.0299026Z LOADEDMODULES=
2025-05-07T20:21:07.0299200Z UPLOAD_TO_BASE_BUCKET=no
2025-05-07T20:21:07.0299432Z GITHUB_EVENT_PATH=/github/workflow/event.json
2025-05-07T20:21:07.0299780Z CONDA_PROMPT_MODIFIER=(/__w/_temp/conda_environment_14891846315) 
2025-05-07T20:21:07.0300117Z PLATFORM_NAME=Linux-aarch64
2025-05-07T20:21:07.0300326Z PACKAGE_TYPE=wheel
2025-05-07T20:21:07.0300556Z GITHUB_GRAPHQL_URL=https://api.github.com/graphql
2025-05-07T20:21:07.0300839Z MAIL=/var/spool/mail/root
2025-05-07T20:21:07.0301035Z RUNNER_OS=Linux
2025-05-07T20:21:07.0301376Z GITHUB_BASE_REF=main
2025-05-07T20:21:07.0301577Z FORCE_CUDA=1
2025-05-07T20:21:07.0301770Z TORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T20:21:07.0302196Z GITHUB_PATH=/__w/_temp/_runner_file_commands/add_path_8637f752-48d8-46da-bd55-a34f5e4b183b
2025-05-07T20:21:07.0302590Z GITHUB_JOB=build
2025-05-07T20:21:07.0302763Z BUILD_TARGET=genai
2025-05-07T20:21:07.0302974Z CUDNN_INCLUDE_DIR=/usr/local/cuda-12.8/include
2025-05-07T20:21:07.0303236Z RUNNER_NAME=i-050aa4155d8879248
2025-05-07T20:21:07.0303446Z PYTHON_VERSION=3.9
2025-05-07T20:21:07.0303620Z CONDA_ROOT=/opt/conda
2025-05-07T20:21:07.0303977Z GITHUB_OUTPUT=/__w/_temp/_runner_file_commands/set_output_8637f752-48d8-46da-bd55-a34f5e4b183b
2025-05-07T20:21:07.0304382Z PYTORCH_VERSION_SUFFIX=
2025-05-07T20:21:07.0304566Z SHLVL=3
2025-05-07T20:21:07.0304715Z LANGUAGE=en_US.UTF-8
2025-05-07T20:21:07.0304918Z GITHUB_REPOSITORY=pytorch/FBGEMM
2025-05-07T20:21:07.0305135Z MANPATH=:
2025-05-07T20:21:07.0305326Z SCRIPT=../.github/scripts/nova_postscript.bash
2025-05-07T20:21:07.0305610Z GITHUB_EVENT_NAME=pull_request
2025-05-07T20:21:07.0306065Z MODULEPATH=/etc/scl/modulefiles:/usr/share/Modules/modulefiles:/etc/modulefiles:/usr/share/modulefiles
2025-05-07T20:21:07.0306542Z LOGNAME=root
2025-05-07T20:21:07.0306922Z MODULEPATH_modshare=/usr/share/Modules/modulefiles:2:/etc/modulefiles:2:/usr/share/modulefiles:2
2025-05-07T20:21:07.0307382Z GITHUB_RUN_NUMBER=1263
2025-05-07T20:21:07.0307630Z GITHUB_WORKFLOW=Build FBGEMM GenAI Aarch64 Linux Wheels
2025-05-07T20:21:07.0308905Z PATH=/__w/_temp/conda_environment_14891846315/bin:/opt/conda/condabin:/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:21:07.0310197Z GITHUB_WORKFLOW_SHA=6060cd4b5f971680caecdcc657faccb5720d1c3e
2025-05-07T20:21:07.0310563Z DEBUGINFOD_URLS=https://debuginfod.centos.org/ 
2025-05-07T20:21:07.0310866Z GITHUB_WORKSPACE=/__w/FBGEMM/FBGEMM
2025-05-07T20:21:07.0311107Z MODULESHOME=/usr/share/Modules
2025-05-07T20:21:07.0311349Z PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
2025-05-07T20:21:07.0311813Z CONDA_DEFAULT_ENV=/__w/_temp/conda_environment_14891846315
2025-05-07T20:21:07.0312128Z GITHUB_TRIGGERING_ACTOR=q10
2025-05-07T20:21:07.0312514Z HISTSIZE=1000
2025-05-07T20:21:07.0312745Z PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T20:21:07.0313051Z LESSOPEN=||/usr/bin/lesspipe.sh %s
2025-05-07T20:21:07.0313283Z BASH_FUNC_which%%=() {  ( alias;
2025-05-07T20:21:07.0313732Z  eval ${which_declare} ) | /usr/bin/which --tty-only --read-alias --read-functions --show-tilde --show-dot $@
2025-05-07T20:21:07.0314171Z }
2025-05-07T20:21:07.0314340Z BASH_FUNC_module%%=() {  unset _mlshdbg;
2025-05-07T20:21:07.0314627Z  if [ "${MODULES_SILENT_SHELL_DEBUG:-0}" = '1' ]; then
2025-05-07T20:21:07.0314885Z  case "$-" in 
2025-05-07T20:21:07.0315044Z  *v*x*)
2025-05-07T20:21:07.0315181Z  set +vx;
2025-05-07T20:21:07.0315339Z  _mlshdbg='vx'
2025-05-07T20:21:07.0315490Z  ;;
2025-05-07T20:21:07.0315722Z  *v*)
2025-05-07T20:21:07.0315860Z  set +v;
2025-05-07T20:21:07.0316007Z  _mlshdbg='v'
2025-05-07T20:21:07.0316154Z  ;;
2025-05-07T20:21:07.0316287Z  *x*)
2025-05-07T20:21:07.0316421Z  set +x;
2025-05-07T20:21:07.0316570Z  _mlshdbg='x'
2025-05-07T20:21:07.0316714Z  ;;
2025-05-07T20:21:07.0316845Z  *)
2025-05-07T20:21:07.0316977Z  _mlshdbg=''
2025-05-07T20:21:07.0317127Z  ;;
2025-05-07T20:21:07.0317262Z  esac;
2025-05-07T20:21:07.0317397Z  fi;
2025-05-07T20:21:07.0317542Z  unset _mlre _mlIFS;
2025-05-07T20:21:07.0317730Z  if [ -n "${IFS+x}" ]; then
2025-05-07T20:21:07.0317923Z  _mlIFS=$IFS;
2025-05-07T20:21:07.0318073Z  fi;
2025-05-07T20:21:07.0318211Z  IFS=' ';
2025-05-07T20:21:07.0318382Z  for _mlv in ${MODULES_RUN_QUARANTINE:-};
2025-05-07T20:21:07.0318616Z  do
2025-05-07T20:21:07.0318835Z  if [ "${_mlv}" = "${_mlv##*[!A-Za-z0-9_]}" -a "${_mlv}" = "${_mlv#[0-9]}" ]; then
2025-05-07T20:21:07.0319332Z  if [ -n "`eval 'echo ${'$_mlv'+x}'`" ]; then
2025-05-07T20:21:07.0319652Z  _mlre="${_mlre:-}${_mlv}_modquar='`eval 'echo ${'$_mlv'}'`' ";
2025-05-07T20:21:07.0319932Z  fi;
2025-05-07T20:21:07.0320089Z  _mlrv="MODULES_RUNENV_${_mlv}";
2025-05-07T20:21:07.0320348Z  _mlre="${_mlre:-}${_mlv}='`eval 'echo ${'$_mlrv':-}'`' ";
2025-05-07T20:21:07.0320614Z  fi;
2025-05-07T20:21:07.0320742Z  done;
2025-05-07T20:21:07.0320894Z  if [ -n "${_mlre:-}" ]; then
2025-05-07T20:21:07.0321259Z  eval `eval ${_mlre} /usr/bin/tclsh /usr/share/Modules/libexec/modulecmd.tcl bash '"$@"'`;
2025-05-07T20:21:07.0321640Z  else
2025-05-07T20:21:07.0321907Z  eval `/usr/bin/tclsh /usr/share/Modules/libexec/modulecmd.tcl bash "$@"`;
2025-05-07T20:21:07.0322245Z  fi;
2025-05-07T20:21:07.0322384Z  _mlstatus=$?;
2025-05-07T20:21:07.0322557Z  if [ -n "${_mlIFS+x}" ]; then
2025-05-07T20:21:07.0322756Z  IFS=$_mlIFS;
2025-05-07T20:21:07.0322903Z  else
2025-05-07T20:21:07.0323042Z  unset IFS;
2025-05-07T20:21:07.0323182Z  fi;
2025-05-07T20:21:07.0323341Z  unset _mlre _mlv _mlrv _mlIFS;
2025-05-07T20:21:07.0323560Z  if [ -n "${_mlshdbg:-}" ]; then
2025-05-07T20:21:07.0323771Z  set -$_mlshdbg;
2025-05-07T20:21:07.0323932Z  fi;
2025-05-07T20:21:07.0324073Z  unset _mlshdbg;
2025-05-07T20:21:07.0324240Z  return $_mlstatus
2025-05-07T20:21:07.0324412Z }
2025-05-07T20:21:07.0324598Z BASH_FUNC_switchml%%=() {  typeset swfound=1;
2025-05-07T20:21:07.0324898Z  if [ "${MODULES_USE_COMPAT_VERSION:-0}" = '1' ]; then
2025-05-07T20:21:07.0325170Z  typeset swname='main';
2025-05-07T20:21:07.0325416Z  if [ -e /usr/share/Modules/libexec/modulecmd.tcl ]; then
2025-05-07T20:21:07.0325710Z  typeset swfound=0;
2025-05-07T20:21:07.0325897Z  unset MODULES_USE_COMPAT_VERSION;
2025-05-07T20:21:07.0326119Z  fi;
2025-05-07T20:21:07.0326253Z  else
2025-05-07T20:21:07.0326420Z  typeset swname='compatibility';
2025-05-07T20:21:07.0326706Z  if [ -e /usr/share/Modules/libexec/modulecmd-compat ]; then
2025-05-07T20:21:07.0327006Z  typeset swfound=0;
2025-05-07T20:21:07.0327201Z  MODULES_USE_COMPAT_VERSION=1;
2025-05-07T20:21:07.0327433Z  export MODULES_USE_COMPAT_VERSION;
2025-05-07T20:21:07.0327656Z  fi;
2025-05-07T20:21:07.0327785Z  fi;
2025-05-07T20:21:07.0327946Z  if [ $swfound -eq 0 ]; then
2025-05-07T20:21:07.0328186Z  echo "Switching to Modules $swname version";
2025-05-07T20:21:07.0328639Z  source /usr/share/Modules/init/bash;
2025-05-07T20:21:07.0328858Z  else
2025-05-07T20:21:07.0329105Z  echo "Cannot switch to Modules $swname version, command not found";
2025-05-07T20:21:07.0329418Z  return 1;
2025-05-07T20:21:07.0329561Z  fi
2025-05-07T20:21:07.0329688Z }
2025-05-07T20:21:07.0329906Z BASH_FUNC_scl%%=() {  if [ "$1" = "load" -o "$1" = "unload" ]; then
2025-05-07T20:21:07.0330196Z  eval "module $@";
2025-05-07T20:21:07.0330359Z  else
2025-05-07T20:21:07.0330502Z  /usr/bin/scl "$@";
2025-05-07T20:21:07.0330661Z  fi
2025-05-07T20:21:07.0330791Z }
2025-05-07T20:21:07.0330940Z BASH_FUNC_ml%%=() {  module ml "$@"
2025-05-07T20:21:07.0331156Z }
2025-05-07T20:21:07.0331296Z _=/usr/bin/printenv
2025-05-07T20:21:07.0331508Z ################################################################################
2025-05-07T20:21:07.0331878Z ################################################################################
2025-05-07T20:21:07.0332234Z # Collect PyTorch Environment Information (for Reporting Issues)
2025-05-07T20:21:07.0332542Z #
2025-05-07T20:21:07.0332893Z # [2025-05-07T20:21:07.027Z] + collect_pytorch_env_info /__w/_temp/conda_environment_14891846315
2025-05-07T20:21:07.0333310Z ################################################################################
2025-05-07T20:21:07.0333501Z 
2025-05-07T20:21:07.0333653Z [EXEC] [ATTEMPT 0/3]    + wget -q --timeout 1 pypi.org -O /dev/null
2025-05-07T20:21:07.1815446Z [CHECK] Network does not appear to be blocked.
2025-05-07T20:21:07.1824086Z [INFO] Downloading the PyTorch environment info collection script ...
2025-05-07T20:21:07.1824661Z + wget -q https://raw.githubusercontent.com/pytorch/pytorch/main/torch/utils/collect_env.py
2025-05-07T20:21:07.1825532Z 
2025-05-07T20:21:07.3163735Z 
2025-05-07T20:21:07.3164307Z [INFO] Collecting PyTorch environment info (will be needed for reporting issues to PyTorch) ...
2025-05-07T20:21:07.3195226Z [EXEC] [ATTEMPT 0/3]    + conda run -p /__w/_temp/conda_environment_14891846315 python collect_env.py
2025-05-07T20:21:13.8420940Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:13.8422448Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:13.8422647Z 
2025-05-07T20:21:13.8422783Z Collecting environment information...
2025-05-07T20:21:13.8423042Z PyTorch version: 2.8.0.dev20250507+cu128
2025-05-07T20:21:13.8423282Z Is debug build: False
2025-05-07T20:21:13.8423520Z CUDA used to build PyTorch: 12.8
2025-05-07T20:21:13.8423754Z ROCM used to build PyTorch: N/A
2025-05-07T20:21:13.8423923Z 
2025-05-07T20:21:13.8424025Z OS: AlmaLinux 8.10 (Cerulean Leopard) (aarch64)
2025-05-07T20:21:13.8424336Z GCC version: (GCC) 11.2.1 20220127 (Red Hat 11.2.1-9)
2025-05-07T20:21:13.8424623Z Clang version: Could not collect
2025-05-07T20:21:13.8424852Z CMake version: version 4.0.0
2025-05-07T20:21:13.8425063Z Libc version: glibc-2.28
2025-05-07T20:21:13.8425200Z 
2025-05-07T20:21:13.8425476Z Python version: 3.9.22 | packaged by conda-forge | (main, Apr 14 2025, 23:27:42)  [GCC 13.3.0] (64-bit runtime)
2025-05-07T20:21:13.8426038Z Python platform: Linux-6.1.130-139.222.amzn2023.aarch64-aarch64-with-glibc2.28
2025-05-07T20:21:13.8426414Z Is CUDA available: False
2025-05-07T20:21:13.8426625Z CUDA runtime version: 12.8.61
2025-05-07T20:21:13.8426846Z CUDA_MODULE_LOADING set to: N/A
2025-05-07T20:21:13.8427103Z GPU models and configuration: Could not collect
2025-05-07T20:21:13.8427399Z Nvidia driver version: Could not collect
2025-05-07T20:21:13.8427656Z cuDNN version: Could not collect
2025-05-07T20:21:13.8427877Z HIP runtime version: N/A
2025-05-07T20:21:13.8428087Z MIOpen runtime version: N/A
2025-05-07T20:21:13.8428303Z Is XNNPACK available: True
2025-05-07T20:21:13.8428858Z 
2025-05-07T20:21:13.8428918Z CPU:
2025-05-07T20:21:13.8429080Z Architecture:        aarch64
2025-05-07T20:21:13.8429293Z Byte Order:          Little Endian
2025-05-07T20:21:13.8429514Z CPU(s):              16
2025-05-07T20:21:13.8429699Z On-line CPU(s) list: 0-15
2025-05-07T20:21:13.8429899Z Thread(s) per core:  1
2025-05-07T20:21:13.8430085Z Core(s) per cluster: 16
2025-05-07T20:21:13.8430290Z Socket(s):           -
2025-05-07T20:21:13.8430467Z Cluster(s):          1
2025-05-07T20:21:13.8430651Z NUMA node(s):        1
2025-05-07T20:21:13.8430829Z Vendor ID:           ARM
2025-05-07T20:21:13.8431017Z Model:               1
2025-05-07T20:21:13.8431192Z Stepping:            r1p1
2025-05-07T20:21:13.8431404Z BogoMIPS:            2100.00
2025-05-07T20:21:13.8431746Z L1d cache:           64K
2025-05-07T20:21:13.8432127Z L1i cache:           64K
2025-05-07T20:21:13.8432318Z L2 cache:            1024K
2025-05-07T20:21:13.8432504Z L3 cache:            32768K
2025-05-07T20:21:13.8432711Z NUMA node0 CPU(s):   0-15
2025-05-07T20:21:13.8433519Z Flags:               fp asimd evtstrm aes pmull sha1 sha2 crc32 atomics fphp asimdhp cpuid asimdrdm jscvt fcma lrcpc dcpop sha3 sm3 sm4 asimddp sha512 sve asimdfhm dit uscat ilrcpc flagm paca pacg dcpodp svei8mm svebf16 i8mm bf16 dgh rng
2025-05-07T20:21:13.8434304Z 
2025-05-07T20:21:13.8434385Z Versions of relevant libraries:
2025-05-07T20:21:13.8434612Z [pip3] mypy_extensions==1.1.0
2025-05-07T20:21:13.8434823Z [pip3] numpy==2.0.2
2025-05-07T20:21:13.8435021Z [pip3] pytorch-triton==3.3.0+git96316ce5
2025-05-07T20:21:13.8435274Z [pip3] torch==2.8.0.dev20250507+cu128
2025-05-07T20:21:13.8435567Z [conda] numpy                     2.0.2                    pypi_0    pypi
2025-05-07T20:21:13.8436200Z [conda] pytorch-triton            3.3.0+git96316ce5          pypi_0    pypi
2025-05-07T20:21:13.8436810Z [conda] torch                     2.8.0.dev20250507+cu128          pypi_0    pypi
2025-05-07T20:21:13.8437058Z 
2025-05-07T20:21:13.9237111Z [NOVA] Time taken to collect PyTorch environment information: 6 seconds
2025-05-07T20:21:13.9238383Z ################################################################################
2025-05-07T20:21:13.9238699Z # Install FBGEMM-GPU from Wheel
2025-05-07T20:21:13.9238916Z #
2025-05-07T20:21:13.9262927Z # [2025-05-07T20:21:13.925Z] + install_fbgemm_gpu_wheel /__w/_temp/conda_environment_14891846315 fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:13.9263633Z ################################################################################
2025-05-07T20:21:13.9263826Z 
2025-05-07T20:21:13.9264243Z [INSTALL] Printing out FBGEMM-GPU wheel SHA: fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:13.9264973Z + sha1sum fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:13.9265348Z 
2025-05-07T20:21:13.9633407Z 3bf552d7d600635ae0cf5414beb286a094ce6cd9  fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:13.9635752Z 
2025-05-07T20:21:13.9636799Z + sha256sum fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:13.9637186Z 
2025-05-07T20:21:14.0260378Z 0f1de2eab5eb014e36392ac258826d98112bad6fcdcc450eb46dd110edf76e04  fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:14.0262677Z 
2025-05-07T20:21:14.0263425Z + md5sum fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:14.0263774Z 
2025-05-07T20:21:14.0740018Z 70cf04a9fc7c83eaf5a832c0afa16d7d  fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:14.0742471Z 
2025-05-07T20:21:14.0752307Z [INSTALL] Installing FBGEMM-GPU wheel: fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl ...
2025-05-07T20:21:14.0781544Z [EXEC] [ATTEMPT 0/3]    + conda run -p /__w/_temp/conda_environment_14891846315 python -m pip install fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:16.6905251Z WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager, possibly rendering your system unusable. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv. Use the --root-user-action option if you know what you are doing and want to suppress this warning.
2025-05-07T20:21:16.6906580Z 
2025-05-07T20:21:16.6906874Z Processing ./fbgemm_gpu/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:21:16.6907766Z Requirement already satisfied: numpy in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from fbgemm-gpu-genai==2025.5.7+cu128) (2.0.2)
2025-05-07T20:21:16.6908807Z Installing collected packages: fbgemm-gpu-genai
2025-05-07T20:21:16.6909150Z Successfully installed fbgemm-gpu-genai-2025.5.7+cu128
2025-05-07T20:21:16.6909391Z 
2025-05-07T20:21:23.1299892Z ################################################################################
2025-05-07T20:21:23.1300225Z [CHECK] !!!!    INFO    !!!!
2025-05-07T20:21:23.1300537Z [CHECK] The installed version of PyTorch is: 2.8.0.dev20250507+cu128
2025-05-07T20:21:23.1300911Z [CHECK] CUDA version reported by PyTorch is: 12.8
2025-05-07T20:21:23.1301185Z [CHECK]
2025-05-07T20:21:23.1301461Z [CHECK] NOTE: If the PyTorch package channel is different from the FBGEMM_GPU
2025-05-07T20:21:23.1301923Z [CHECK]       package channel; the package may be broken at runtime!!!
2025-05-07T20:21:23.1302272Z ################################################################################
2025-05-07T20:21:23.1302464Z 
2025-05-07T20:21:23.1303161Z [INSTALL] Checking imports and symbols ...
2025-05-07T20:21:27.2116957Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:27.2118470Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:27.2118669Z 
2025-05-07T20:21:27.2778331Z [CHECK] Python (sub-)package 'fbgemm_gpu' found ...
2025-05-07T20:21:30.7755630Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:30.7757114Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:30.7757324Z 
2025-05-07T20:21:30.8296207Z [CHECK] Found symbol '__version__' in Python package 'fbgemm_gpu'.
2025-05-07T20:21:34.4573927Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:34.4575444Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:34.4575640Z 
2025-05-07T20:21:34.5329630Z [CHECK] Found symbol '__variant__' in Python package 'fbgemm_gpu'.
2025-05-07T20:21:34.5332908Z [CHECK] Printing out the FBGEMM-GPU version ...
2025-05-07T20:21:38.2680985Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:38.2682877Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:38.2683068Z 
2025-05-07T20:21:42.1190343Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:42.1191880Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:42.1192072Z 
2025-05-07T20:21:45.5641031Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:45.5642917Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:45.5643115Z 
2025-05-07T20:21:45.6268594Z ################################################################################
2025-05-07T20:21:45.6268953Z [CHECK] The installed FBGEMM TARGET is: genai
2025-05-07T20:21:45.6269247Z [CHECK] The installed FBGEMM VARIANT is: cuda
2025-05-07T20:21:45.6269561Z [CHECK] The installed FBGEMM VERSION is: 2025.5.7+cu128
2025-05-07T20:21:45.6269860Z ################################################################################
2025-05-07T20:21:45.6270050Z 
2025-05-07T20:21:49.0915115Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:49.0916648Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:49.0916841Z 
2025-05-07T20:21:52.4427664Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:52.4429154Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:52.4429351Z 
2025-05-07T20:21:52.4980355Z ################################################################################
2025-05-07T20:21:52.4980656Z [CHECK] FBGEMM_GPU Experimental Packages
2025-05-07T20:21:52.4981960Z [CHECK] fbgemm_gpu: ['__annotations__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '__target__', '__variant__', '__version__', '_load_library', 'docs', 'fbgemm_genai_libraries', 'fbgemm_gpu', 'fbgemm_gpu_libraries', 'libraries_to_load', 'library', 'logging', 'open_source', 'os', 'split_embedding_configs', 'split_table_batched_embeddings_ops_common', 'torch', 'utils']
2025-05-07T20:21:52.4983457Z [CHECK] fbgemm_gpu.experimental: ['__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__']
2025-05-07T20:21:52.4983936Z ################################################################################
2025-05-07T20:21:52.4984132Z 
2025-05-07T20:21:52.4984261Z [INSTALL] Check for installation of Python sources ...
2025-05-07T20:21:56.0555368Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:56.0558192Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:56.0558399Z 
2025-05-07T20:21:56.1300716Z [CHECK] Python (sub-)package 'fbgemm_gpu.config' found ...
2025-05-07T20:21:59.8445408Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:21:59.8446919Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:21:59.8447153Z 
2025-05-07T20:21:59.9195212Z [CHECK] Python (sub-)package 'fbgemm_gpu.docs' found ...
2025-05-07T20:22:04.2713867Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:04.2715394Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:04.2715586Z 
2025-05-07T20:22:04.3473490Z [CHECK] Python (sub-)package 'fbgemm_gpu.quantize' found ...
2025-05-07T20:22:07.9424818Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:07.9426319Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:07.9426513Z 
2025-05-07T20:22:08.0007746Z [CHECK] Python (sub-)package 'fbgemm_gpu.tbe.cache' found ...
2025-05-07T20:22:08.0011331Z [INSTALL] Check for operator registrations ...
2025-05-07T20:22:11.2650002Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:11.2651494Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:11.2651694Z 
2025-05-07T20:22:11.2651770Z fbgemm.nccl_init
2025-05-07T20:22:11.2651885Z 
2025-05-07T20:22:11.3185645Z [CHECK] FBGEMM_GPU operator appears to be correctly registered: torch.ops.fbgemm.nccl_init
2025-05-07T20:22:14.8137943Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:14.8139479Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:14.8139683Z 
2025-05-07T20:22:14.8139769Z fbgemm.gqa_attn_splitk
2025-05-07T20:22:14.8139897Z 
2025-05-07T20:22:14.8885468Z [CHECK] FBGEMM_GPU operator appears to be correctly registered: torch.ops.fbgemm.gqa_attn_splitk
2025-05-07T20:22:18.6426712Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:18.6428206Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:18.6428399Z 
2025-05-07T20:22:18.6428868Z fbgemm.rope_qkv_decoding
2025-05-07T20:22:18.6429008Z 
2025-05-07T20:22:18.7175293Z [CHECK] FBGEMM_GPU operator appears to be correctly registered: torch.ops.fbgemm.rope_qkv_decoding
2025-05-07T20:22:18.7175854Z [INSTALL] FBGEMM-GPU installation through wheel completed ...
2025-05-07T20:22:18.7202581Z [NOVA] Time taken to install wheel: 65 seconds
2025-05-07T20:22:21.5921851Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:21.5923339Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:21.5927160Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:799: UserWarning: Can't initialize NVML
2025-05-07T20:22:21.5927745Z   warnings.warn("Can't initialize NVML")
2025-05-07T20:22:21.5979920Z cuda.is_available()  False
2025-05-07T20:22:21.5980121Z device_count()  0
2025-05-07T20:22:21.8238643Z 
2025-05-07T20:22:21.8238818Z !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
2025-05-07T20:22:21.8239090Z WARNING:
2025-05-07T20:22:21.8239178Z 
2025-05-07T20:22:21.8239358Z You should always run with libnvidia-ml.so that is installed with your
2025-05-07T20:22:21.8239849Z NVIDIA Display Driver. By default it's installed in /usr/lib and /usr/lib64.
2025-05-07T20:22:21.8240323Z libnvidia-ml.so in GDK package is a stub library that is attached only for
2025-05-07T20:22:21.8241162Z build purposes (e.g. machine that you build your application doesn't have
2025-05-07T20:22:21.8241536Z to have Display Driver installed).
2025-05-07T20:22:21.8241794Z !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
2025-05-07T20:22:22.0522964Z ################################################################################
2025-05-07T20:22:22.0523289Z # Test All FBGEMM-GPU Modules
2025-05-07T20:22:22.0523502Z #
2025-05-07T20:22:22.0548001Z # [2025-05-07T20:22:22.054Z] + test_all_fbgemm_gpu_modules /__w/_temp/conda_environment_14891846315
2025-05-07T20:22:22.0548535Z ################################################################################
2025-05-07T20:22:22.0548727Z 
2025-05-07T20:22:25.7079242Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:25.7080750Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:25.7080947Z 
2025-05-07T20:22:29.3432796Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:29.3434309Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:29.3434503Z 
2025-05-07T20:22:29.4138730Z [TEST] Determined FBGEMM_GPU (target : variant) from installation: (genai : cuda)
2025-05-07T20:22:29.4139222Z [TEST] Will be running tests specific to this target and variant ...
2025-05-07T20:22:29.4139593Z [TEST] Determined the test directories:
2025-05-07T20:22:29.4139879Z fbgemm_gpu/experimental/gen_ai/test
2025-05-07T20:22:29.4140132Z fbgemm_gpu/experimental/example/test
2025-05-07T20:22:29.4140394Z fbgemm_gpu/experimental/gemm/test
2025-05-07T20:22:29.4140560Z 
2025-05-07T20:22:29.4149102Z [TEST] FBGEMM_GPU variant is cuda; configuring for CUDA-based testing ...
2025-05-07T20:22:29.4156478Z [TEST] Set environment variables for CUDA testing ...
2025-05-07T20:22:29.4156940Z + conda env config vars unset -p /__w/_temp/conda_environment_14891846315 CUDA_VISIBLE_DEVICES
2025-05-07T20:22:29.4157278Z 
2025-05-07T20:22:29.7328578Z To make your changes take effect please reactivate your environment
2025-05-07T20:22:29.8033310Z 
2025-05-07T20:22:29.8034079Z [TEST] Platform is aarch64; will set KMP_DUPLICATE_LIB_OK ...
2025-05-07T20:22:29.8034571Z + conda env config vars set -p /__w/_temp/conda_environment_14891846315 KMP_DUPLICATE_LIB_OK=1
2025-05-07T20:22:29.8034909Z 
2025-05-07T20:22:30.1220036Z To make your changes take effect please reactivate your environment
2025-05-07T20:22:30.1923580Z 
2025-05-07T20:22:30.1923831Z [TEST] Installing PyTest ...
2025-05-07T20:22:30.1954217Z [EXEC] [ATTEMPT 0/3]    + conda install -p /__w/_temp/conda_environment_14891846315 -c conda-forge --override-channels -y pytest expecttest
2025-05-07T20:22:31.1795536Z Channels:
2025-05-07T20:22:31.1795769Z  - conda-forge
2025-05-07T20:22:31.1795951Z Platform: linux-aarch64
2025-05-07T20:22:37.9717514Z Collecting package metadata (repodata.json): ...working... done
2025-05-07T20:22:38.3923083Z Solving environment: ...working... done
2025-05-07T20:22:38.4035290Z 
2025-05-07T20:22:38.4035298Z 
2025-05-07T20:22:38.4035450Z ==> WARNING: A newer version of conda exists. <==
2025-05-07T20:22:38.4035730Z     current version: 25.3.0
2025-05-07T20:22:38.4035944Z     latest version: 25.3.1
2025-05-07T20:22:38.4036083Z 
2025-05-07T20:22:38.4036166Z Please update conda by running
2025-05-07T20:22:38.4036314Z 
2025-05-07T20:22:38.4036433Z     $ conda update -n base -c conda-forge conda
2025-05-07T20:22:38.4036819Z 
2025-05-07T20:22:38.4037130Z 
2025-05-07T20:22:38.6225157Z 
2025-05-07T20:22:38.6225305Z ## Package Plan ##
2025-05-07T20:22:38.6225485Z 
2025-05-07T20:22:38.6225663Z   environment location: /__w/_temp/conda_environment_14891846315
2025-05-07T20:22:38.6225924Z 
2025-05-07T20:22:38.6226005Z   added / updated specs:
2025-05-07T20:22:38.6226211Z     - expecttest
2025-05-07T20:22:38.6226381Z     - pytest
2025-05-07T20:22:38.6226479Z 
2025-05-07T20:22:38.6226484Z 
2025-05-07T20:22:38.6226581Z The following packages will be downloaded:
2025-05-07T20:22:38.6226773Z 
2025-05-07T20:22:38.6226864Z     package                    |            build
2025-05-07T20:22:38.6227135Z     ---------------------------|-----------------
2025-05-07T20:22:38.6227470Z     expecttest-0.3.0           |     pyhd8ed1ab_0          14 KB  conda-forge
2025-05-07T20:22:38.6227861Z     iniconfig-2.0.0            |     pyhd8ed1ab_1          11 KB  conda-forge
2025-05-07T20:22:38.6228251Z     pytest-8.3.5               |     pyhd8ed1ab_0         254 KB  conda-forge
2025-05-07T20:22:38.6228592Z     ------------------------------------------------------------
2025-05-07T20:22:38.6228885Z                                            Total:         279 KB
2025-05-07T20:22:38.6229073Z 
2025-05-07T20:22:38.6229176Z The following NEW packages will be INSTALLED:
2025-05-07T20:22:38.6229372Z 
2025-05-07T20:22:38.6229553Z   colorama           conda-forge/noarch::colorama-0.4.6-pyhd8ed1ab_1 
2025-05-07T20:22:38.6229970Z   expecttest         conda-forge/noarch::expecttest-0.3.0-pyhd8ed1ab_0 
2025-05-07T20:22:38.6230391Z   iniconfig          conda-forge/noarch::iniconfig-2.0.0-pyhd8ed1ab_1 
2025-05-07T20:22:38.6230784Z   pluggy             conda-forge/noarch::pluggy-1.5.0-pyhd8ed1ab_1 
2025-05-07T20:22:38.6231159Z   pytest             conda-forge/noarch::pytest-8.3.5-pyhd8ed1ab_0 
2025-05-07T20:22:38.6231392Z 
2025-05-07T20:22:38.6231396Z 
2025-05-07T20:22:38.6231400Z 
2025-05-07T20:22:38.6243280Z Downloading and Extracting Packages: ...working...
2025-05-07T20:22:38.6246752Z pytest-8.3.5         | 254 KB    |            |   0% 
2025-05-07T20:22:38.6247623Z 
2025-05-07T20:22:38.6258675Z expecttest-0.3.0     | 14 KB     |            |   0% [A
2025-05-07T20:22:38.6258892Z 
2025-05-07T20:22:38.6262209Z 
2025-05-07T20:22:38.6952203Z iniconfig-2.0.0      | 11 KB     |            |   0% [A[A
2025-05-07T20:22:38.6952899Z 
2025-05-07T20:22:38.7039264Z expecttest-0.3.0     | 14 KB     | ########## | 100% [A
2025-05-07T20:22:38.7039640Z 
2025-05-07T20:22:38.7253966Z expecttest-0.3.0     | 14 KB     | ########## | 100% [A
2025-05-07T20:22:38.7288434Z pytest-8.3.5         | 254 KB    | ##5        |  25% 
2025-05-07T20:22:38.7288661Z 
2025-05-07T20:22:38.7288857Z 
2025-05-07T20:22:38.7292030Z iniconfig-2.0.0      | 11 KB     | ########## | 100% [A[A
2025-05-07T20:22:38.7295835Z pytest-8.3.5         | 254 KB    | ########## | 100% 
2025-05-07T20:22:38.7296049Z 
2025-05-07T20:22:38.7296726Z 
2025-05-07T20:22:38.7431270Z iniconfig-2.0.0      | 11 KB     | ########## | 100% [A[A
2025-05-07T20:22:38.7431527Z 
2025-05-07T20:22:38.7431537Z 
2025-05-07T20:22:38.7620196Z iniconfig-2.0.0      | 11 KB     | ########## | 100% [A[A
2025-05-07T20:22:38.7622422Z pytest-8.3.5         | 254 KB    | ########## | 100% 
2025-05-07T20:22:38.7622733Z                                                      
2025-05-07T20:22:38.7622919Z 
2025-05-07T20:22:38.7623100Z                                                      [A
2025-05-07T20:22:38.7623279Z 
2025-05-07T20:22:38.7623284Z 
2025-05-07T20:22:38.7624227Z                                                      [A[A done
2025-05-07T20:22:38.8626328Z Preparing transaction: - done
2025-05-07T20:22:39.0634452Z Verifying transaction: | / done
2025-05-07T20:22:40.2647795Z Executing transaction: \ | / - \ | / - \ | / - done
2025-05-07T20:22:40.3730377Z [TEST] Checking imports ...
2025-05-07T20:22:43.7480810Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:43.7482337Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:43.7482535Z 
2025-05-07T20:22:43.8155308Z [CHECK] Python (sub-)package 'fbgemm_gpu' found ...
2025-05-07T20:22:43.8166856Z [TEST] Setting feature flags ...
2025-05-07T20:22:43.8167720Z + conda env config vars set -p /__w/_temp/conda_environment_14891846315 FBGEMM_TBE_ENSEMBLE_ROWWISE_ADAGRAD=1
2025-05-07T20:22:43.8168143Z 
2025-05-07T20:22:44.1294890Z To make your changes take effect please reactivate your environment
2025-05-07T20:22:44.1964428Z 
2025-05-07T20:22:44.1965814Z [TEST] PyTest args:  -v -rsx -s -W ignore::pytest.PytestCollectionWarning
2025-05-07T20:22:44.1966668Z ################################################################################
2025-05-07T20:22:44.1966977Z # Run FBGEMM-GPU Tests: 
2025-05-07T20:22:44.1967175Z #
2025-05-07T20:22:44.1991860Z # [2025-05-07T20:22:44.198Z] + __run_fbgemm_gpu_tests_in_directory /__w/_temp/conda_environment_14891846315
2025-05-07T20:22:44.1992317Z ################################################################################
2025-05-07T20:22:44.1992517Z 
2025-05-07T20:22:44.1999779Z [TEST] Enumerating ALL test files ...
2025-05-07T20:22:44.2030894Z ./attention/gqa_test.py
2025-05-07T20:22:44.2031141Z ./coalesce/coalesce_test.py
2025-05-07T20:22:44.2031359Z ./comm/multi_gpu_car_test.py
2025-05-07T20:22:44.2031590Z ./gather_scatter/gather_scatter_test.py
2025-05-07T20:22:44.2031888Z ./kv_cache/kv_cache_test.py
2025-05-07T20:22:44.2032100Z ./moe/activation_test.py
2025-05-07T20:22:44.2032304Z ./moe/gather_scatter_test.py
2025-05-07T20:22:44.2032515Z ./moe/layers_test.py
2025-05-07T20:22:44.2032702Z ./moe/shuffling_test.py
2025-05-07T20:22:44.2032902Z ./quantize/quantize_test.py
2025-05-07T20:22:44.2033041Z 
2025-05-07T20:22:44.2033148Z [TEST] Enumerating IGNORED test files ...
2025-05-07T20:22:44.2033339Z 
2025-05-07T20:22:44.2050292Z ################################################################################
2025-05-07T20:22:44.2072484Z # [2025-05-07T20:22:44.206Z] Run Python Test Suite:
2025-05-07T20:22:44.2073070Z #   ./attention/gqa_test.py
2025-05-07T20:22:44.2073298Z ################################################################################
2025-05-07T20:22:44.2102507Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python -m pytest -v -rsx -s -W ignore::pytest.PytestCollectionWarning --cache-clear ./attention/gqa_test.py
2025-05-07T20:22:44.2103161Z 
2025-05-07T20:22:46.5523778Z ============================= test session starts ==============================
2025-05-07T20:22:46.5524325Z platform linux -- Python 3.9.22, pytest-8.3.5, pluggy-1.5.0 -- /__w/_temp/conda_environment_14891846315/bin/python
2025-05-07T20:22:46.5524777Z cachedir: .pytest_cache
2025-05-07T20:22:46.5525324Z hypothesis profile 'ci' -> database=None, deadline=None, print_blob=True, derandomize=True, suppress_health_check=(HealthCheck.too_slow,)
2025-05-07T20:22:46.5526279Z rootdir: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T20:22:46.5526577Z plugins: hypothesis-6.131.14
2025-05-07T20:22:48.3633214Z collecting ... collected 2 items
2025-05-07T20:22:48.3633420Z 
2025-05-07T20:22:48.3668893Z attention/gqa_test.py::Int4GQATest::test_gqa SKIPPED (Skip when CUDA...)
2025-05-07T20:22:48.5427742Z attention/gqa_test.py::Int4GQATest::test_mqa_main SKIPPED (Skip when...)
2025-05-07T20:22:48.5428060Z 
2025-05-07T20:22:48.5428190Z =============================== warnings summary ===============================
2025-05-07T20:22:48.5428687Z ../../../../../../../../_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181
2025-05-07T20:22:48.5430700Z   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:22:48.5432233Z     return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:22:48.5432437Z 
2025-05-07T20:22:48.5432639Z -- Docs: https://docs.pytest.org/en/stable/how-to/capture-warnings.html
2025-05-07T20:22:48.5433046Z =========================== short test summary info ============================
2025-05-07T20:22:48.5433557Z SKIPPED [1] attention/gqa_test.py:146: Skip when CUDA is not available or CUDA compute capability is less than 8
2025-05-07T20:22:48.5434396Z SKIPPED [1] ../../../../../../../../_temp/conda_environment_14891846315/lib/python3.9/unittest/case.py:117: Skip when CUDA is not available or xformers is not available
2025-05-07T20:22:48.5435052Z ======================== 2 skipped, 1 warning in 2.79s =========================
2025-05-07T20:22:49.1195594Z 
2025-05-07T20:22:49.1196017Z [TEST] Python test suite PASSED: ./attention/gqa_test.py
2025-05-07T20:22:49.1221463Z [TEST] Python test time for ./attention/gqa_test.py: 5 seconds
2025-05-07T20:22:49.1221713Z 
2025-05-07T20:22:49.1221718Z 
2025-05-07T20:22:49.1221722Z 
2025-05-07T20:22:49.1221831Z 
2025-05-07T20:22:49.1242703Z ################################################################################
2025-05-07T20:22:49.1266004Z # [2025-05-07T20:22:49.126Z] Run Python Test Suite:
2025-05-07T20:22:49.1266300Z #   ./coalesce/coalesce_test.py
2025-05-07T20:22:49.1266550Z ################################################################################
2025-05-07T20:22:49.1298665Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python -m pytest -v -rsx -s -W ignore::pytest.PytestCollectionWarning --cache-clear ./coalesce/coalesce_test.py
2025-05-07T20:22:49.1299339Z 
2025-05-07T20:22:50.9677759Z ============================= test session starts ==============================
2025-05-07T20:22:50.9678321Z platform linux -- Python 3.9.22, pytest-8.3.5, pluggy-1.5.0 -- /__w/_temp/conda_environment_14891846315/bin/python
2025-05-07T20:22:50.9678789Z cachedir: .pytest_cache
2025-05-07T20:22:50.9679313Z hypothesis profile 'ci' -> database=None, deadline=None, print_blob=True, derandomize=True, suppress_health_check=(HealthCheck.too_slow,)
2025-05-07T20:22:50.9680267Z rootdir: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T20:22:50.9680570Z plugins: hypothesis-6.131.14
2025-05-07T20:22:52.7813024Z collecting ... collected 1 item
2025-05-07T20:22:52.7813212Z 
2025-05-07T20:23:10.6589083Z coalesce/coalesce_test.py::CoalesceTest::test_coalesce_batches FAILED
2025-05-07T20:23:10.6589397Z 
2025-05-07T20:23:10.6589505Z =================================== FAILURES ===================================
2025-05-07T20:23:10.6589888Z ______________________ CoalesceTest.test_coalesce_batches ______________________
2025-05-07T20:23:10.6590152Z 
2025-05-07T20:23:10.6590362Z self = <coalesce_test.CoalesceTest testMethod=test_coalesce_batches>
2025-05-07T20:23:10.6590632Z 
2025-05-07T20:23:10.6590932Z     @given(
2025-05-07T20:23:10.6591204Z >       device=st.sampled_from([torch.device("cpu"), torch.device("cuda")]),
2025-05-07T20:23:10.6591598Z         batch_size=st.integers(min_value=10, max_value=5000),
2025-05-07T20:23:10.6592014Z         num_inputs=st.integers(min_value=1, max_value=50),
2025-05-07T20:23:10.6592276Z     )
2025-05-07T20:23:10.6592364Z 
2025-05-07T20:23:10.6592446Z coalesce/coalesce_test.py:22: 
2025-05-07T20:23:10.6592704Z _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 
2025-05-07T20:23:10.6593034Z coalesce/coalesce_test.py:37: in test_coalesce_batches
2025-05-07T20:23:10.6593351Z     new_bids = torch.tensor(new_bids).to(device)
2025-05-07T20:23:10.6593642Z _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 
2025-05-07T20:23:10.6593847Z 
2025-05-07T20:23:10.6593913Z     def _lazy_init():
2025-05-07T20:23:10.6594345Z         global _initialized, _queued_calls
2025-05-07T20:23:10.6594668Z         if is_initialized() or hasattr(_tls, "is_initializing"):
2025-05-07T20:23:10.6594953Z             return
2025-05-07T20:23:10.6595132Z         with _initialization_lock:
2025-05-07T20:23:10.6595417Z             # We be double-checked locking, boys!  This is OK because
2025-05-07T20:23:10.6595778Z             # the above test was GIL protected anyway.  The inner test
2025-05-07T20:23:10.6596148Z             # is for when a thread blocked on some other thread which was
2025-05-07T20:23:10.6596529Z             # doing the initialization; when they get the lock, they will
2025-05-07T20:23:10.6596865Z             # find there is nothing left to do.
2025-05-07T20:23:10.6597139Z             if is_initialized():
2025-05-07T20:23:10.6597348Z                 return
2025-05-07T20:23:10.6597620Z             # It is important to prevent other threads from entering _lazy_init
2025-05-07T20:23:10.6598072Z             # immediately, while we are still guaranteed to have the GIL, because some
2025-05-07T20:23:10.6598471Z             # of the C calls we make below will release the GIL
2025-05-07T20:23:10.6598751Z             if _is_in_bad_fork():
2025-05-07T20:23:10.6598975Z                 raise RuntimeError(
2025-05-07T20:23:10.6599312Z                     "Cannot re-initialize CUDA in forked subprocess. To use CUDA with "
2025-05-07T20:23:10.6599738Z                     "multiprocessing, you must use the 'spawn' start method"
2025-05-07T20:23:10.6600034Z                 )
2025-05-07T20:23:10.6600254Z             if not hasattr(torch._C, "_cuda_getDeviceCount"):
2025-05-07T20:23:10.6600616Z                 raise AssertionError("Torch not compiled with CUDA enabled")
2025-05-07T20:23:10.6600940Z             if _cudart is None:
2025-05-07T20:23:10.6601159Z                 raise AssertionError(
2025-05-07T20:23:10.6601521Z                     "libcudart functions unavailable. It looks like you have a broken build?"
2025-05-07T20:23:10.6601884Z                 )
2025-05-07T20:23:10.6602165Z             # This function throws if there's a driver initialization error, no GPUs
2025-05-07T20:23:10.6602540Z             # are found or any other error occurs
2025-05-07T20:23:10.6602822Z             if "CUDA_MODULE_LOADING" not in os.environ:
2025-05-07T20:23:10.6603276Z                 os.environ["CUDA_MODULE_LOADING"] = "LAZY"
2025-05-07T20:23:10.6603540Z >           torch._C._cuda_init()
2025-05-07T20:23:10.6604311Z E           RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library
2025-05-07T20:23:10.6605134Z E           Falsifying example: test_coalesce_batches(
2025-05-07T20:23:10.6605500Z E               # The test always failed when commented parts were varied together.
2025-05-07T20:23:10.6605947Z E               self=<coalesce_test.CoalesceTest testMethod=test_coalesce_batches>,
2025-05-07T20:23:10.6606309Z E               device=device(type='cuda'),
2025-05-07T20:23:10.6606592Z E               batch_size=10,  # or any other generated value
2025-05-07T20:23:10.6606973Z E               num_inputs=1,  # or any other generated value
2025-05-07T20:23:10.6607229Z E           )
2025-05-07T20:23:10.6607397Z E           Explanation:
2025-05-07T20:23:10.6607662Z E               These lines were always and only run by failing examples:
2025-05-07T20:23:10.6608173Z E                   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:354
2025-05-07T20:23:10.6608592Z E           
2025-05-07T20:23:10.6609065Z E           You can reproduce this example by temporarily adding @reproduce_failure('6.131.14', b'AEEBQQpBAQ==') as a decorator on your test case
2025-05-07T20:23:10.6609538Z 
2025-05-07T20:23:10.6609853Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:382: RuntimeError
2025-05-07T20:23:10.6610472Z =============================== warnings summary ===============================
2025-05-07T20:23:10.6610963Z ../../../../../../../../_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181
2025-05-07T20:23:10.6612567Z   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:23:10.6613997Z     return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:23:10.6614192Z 
2025-05-07T20:23:10.6614388Z -- Docs: https://docs.pytest.org/en/stable/how-to/capture-warnings.html
2025-05-07T20:23:10.6614785Z ======================== 1 failed, 1 warning in 19.87s =========================
2025-05-07T20:23:11.0344969Z ERROR conda.cli.main_run:execute(125): `conda run python -m pytest -v -rsx -s -W ignore::pytest.PytestCollectionWarning --cache-clear ./coalesce/coalesce_test.py` failed. (See above for error)
2025-05-07T20:23:11.0875830Z 
2025-05-07T20:23:11.0876131Z [TEST] Some tests FAILED.  Re-attempting only FAILED tests: ./coalesce/coalesce_test.py
2025-05-07T20:23:11.0876473Z 
2025-05-07T20:23:11.0876478Z 
2025-05-07T20:23:11.0900952Z [EXEC] [ATTEMPT 0/2]    + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python -m pytest -v -rsx -s -W ignore::pytest.PytestCollectionWarning --lf --last-failed-no-failures none ./coalesce/coalesce_test.py
2025-05-07T20:23:12.6479022Z ============================= test session starts ==============================
2025-05-07T20:23:12.6479585Z platform linux -- Python 3.9.22, pytest-8.3.5, pluggy-1.5.0 -- /__w/_temp/conda_environment_14891846315/bin/python
2025-05-07T20:23:12.6480034Z cachedir: .pytest_cache
2025-05-07T20:23:12.6480583Z hypothesis profile 'ci' -> database=None, deadline=None, print_blob=True, derandomize=True, suppress_health_check=(HealthCheck.too_slow,)
2025-05-07T20:23:12.6481192Z rootdir: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T20:23:12.6481498Z plugins: hypothesis-6.131.14
2025-05-07T20:23:14.3000224Z collecting ... collected 1 item
2025-05-07T20:23:14.3000535Z run-last-failure: rerun previous 1 failure
2025-05-07T20:23:14.3001319Z 
2025-05-07T20:23:33.4349626Z coalesce/coalesce_test.py::CoalesceTest::test_coalesce_batches FAILED
2025-05-07T20:23:33.4349952Z 
2025-05-07T20:23:33.4350060Z =================================== FAILURES ===================================
2025-05-07T20:23:33.4350440Z ______________________ CoalesceTest.test_coalesce_batches ______________________
2025-05-07T20:23:33.4350708Z 
2025-05-07T20:23:33.4350884Z self = <coalesce_test.CoalesceTest testMethod=test_coalesce_batches>
2025-05-07T20:23:33.4351162Z 
2025-05-07T20:23:33.4351222Z     @given(
2025-05-07T20:23:33.4351493Z >       device=st.sampled_from([torch.device("cpu"), torch.device("cuda")]),
2025-05-07T20:23:33.4351982Z         batch_size=st.integers(min_value=10, max_value=5000),
2025-05-07T20:23:33.4352685Z         num_inputs=st.integers(min_value=1, max_value=50),
2025-05-07T20:23:33.4352949Z     )
2025-05-07T20:23:33.4353038Z 
2025-05-07T20:23:33.4353122Z coalesce/coalesce_test.py:22: 
2025-05-07T20:23:33.4353385Z _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 
2025-05-07T20:23:33.4353721Z coalesce/coalesce_test.py:37: in test_coalesce_batches
2025-05-07T20:23:33.4354040Z     new_bids = torch.tensor(new_bids).to(device)
2025-05-07T20:23:33.4354339Z _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 
2025-05-07T20:23:33.4354544Z 
2025-05-07T20:23:33.4354614Z     def _lazy_init():
2025-05-07T20:23:33.4354817Z         global _initialized, _queued_calls
2025-05-07T20:23:33.4355126Z         if is_initialized() or hasattr(_tls, "is_initializing"):
2025-05-07T20:23:33.4355407Z             return
2025-05-07T20:23:33.4355593Z         with _initialization_lock:
2025-05-07T20:23:33.4356186Z             # We be double-checked locking, boys!  This is OK because
2025-05-07T20:23:33.4356577Z             # the above test was GIL protected anyway.  The inner test
2025-05-07T20:23:33.4356949Z             # is for when a thread blocked on some other thread which was
2025-05-07T20:23:33.4357336Z             # doing the initialization; when they get the lock, they will
2025-05-07T20:23:33.4357673Z             # find there is nothing left to do.
2025-05-07T20:23:33.4357925Z             if is_initialized():
2025-05-07T20:23:33.4358131Z                 return
2025-05-07T20:23:33.4358408Z             # It is important to prevent other threads from entering _lazy_init
2025-05-07T20:23:33.4358859Z             # immediately, while we are still guaranteed to have the GIL, because some
2025-05-07T20:23:33.4359258Z             # of the C calls we make below will release the GIL
2025-05-07T20:23:33.4359535Z             if _is_in_bad_fork():
2025-05-07T20:23:33.4359802Z                 raise RuntimeError(
2025-05-07T20:23:33.4360136Z                     "Cannot re-initialize CUDA in forked subprocess. To use CUDA with "
2025-05-07T20:23:33.4360569Z                     "multiprocessing, you must use the 'spawn' start method"
2025-05-07T20:23:33.4360867Z                 )
2025-05-07T20:23:33.4361087Z             if not hasattr(torch._C, "_cuda_getDeviceCount"):
2025-05-07T20:23:33.4361456Z                 raise AssertionError("Torch not compiled with CUDA enabled")
2025-05-07T20:23:33.4361781Z             if _cudart is None:
2025-05-07T20:23:33.4362007Z                 raise AssertionError(
2025-05-07T20:23:33.4362371Z                     "libcudart functions unavailable. It looks like you have a broken build?"
2025-05-07T20:23:33.4362731Z                 )
2025-05-07T20:23:33.4363016Z             # This function throws if there's a driver initialization error, no GPUs
2025-05-07T20:23:33.4363391Z             # are found or any other error occurs
2025-05-07T20:23:33.4363681Z             if "CUDA_MODULE_LOADING" not in os.environ:
2025-05-07T20:23:33.4363978Z                 os.environ["CUDA_MODULE_LOADING"] = "LAZY"
2025-05-07T20:23:33.4364254Z >           torch._C._cuda_init()
2025-05-07T20:23:33.4365031Z E           RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library
2025-05-07T20:23:33.4366047Z E           Falsifying example: test_coalesce_batches(
2025-05-07T20:23:33.4366413Z E               # The test always failed when commented parts were varied together.
2025-05-07T20:23:33.4366863Z E               self=<coalesce_test.CoalesceTest testMethod=test_coalesce_batches>,
2025-05-07T20:23:33.4367229Z E               device=device(type='cuda'),
2025-05-07T20:23:33.4367511Z E               batch_size=10,  # or any other generated value
2025-05-07T20:23:33.4367827Z E               num_inputs=1,  # or any other generated value
2025-05-07T20:23:33.4368092Z E           )
2025-05-07T20:23:33.4368262Z E           Explanation:
2025-05-07T20:23:33.4368623Z E               These lines were always and only run by failing examples:
2025-05-07T20:23:33.4369137Z E                   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:354
2025-05-07T20:23:33.4369561Z E           
2025-05-07T20:23:33.4370033Z E           You can reproduce this example by temporarily adding @reproduce_failure('6.131.14', b'AEEBQQpBAQ==') as a decorator on your test case
2025-05-07T20:23:33.4370511Z 
2025-05-07T20:23:33.4370822Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:382: RuntimeError
2025-05-07T20:23:33.4371341Z =============================== warnings summary ===============================
2025-05-07T20:23:33.4371821Z ../../../../../../../../_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181
2025-05-07T20:23:33.4373545Z   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:23:33.4374991Z     return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:23:33.4375188Z 
2025-05-07T20:23:33.4375393Z -- Docs: https://docs.pytest.org/en/stable/how-to/capture-warnings.html
2025-05-07T20:23:33.4375797Z ======================== 1 failed, 1 warning in 20.95s =========================
2025-05-07T20:23:33.9919599Z ERROR conda.cli.main_run:execute(125): `conda run python -m pytest -v -rsx -s -W ignore::pytest.PytestCollectionWarning --lf --last-failed-no-failures none ./coalesce/coalesce_test.py` failed. (See above for error)
2025-05-07T20:23:34.0573510Z [EXEC] [ATTEMPT 0/2] Command attempt failed.
2025-05-07T20:23:36.0604155Z 
2025-05-07T20:23:36.0605272Z [EXEC] [ATTEMPT 1/2]    + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python -m pytest -v -rsx -s -W ignore::pytest.PytestCollectionWarning --lf --last-failed-no-failures none ./coalesce/coalesce_test.py
2025-05-07T20:23:37.7275473Z ============================= test session starts ==============================
2025-05-07T20:23:37.7276088Z platform linux -- Python 3.9.22, pytest-8.3.5, pluggy-1.5.0 -- /__w/_temp/conda_environment_14891846315/bin/python
2025-05-07T20:23:37.7276541Z cachedir: .pytest_cache
2025-05-07T20:23:37.7277062Z hypothesis profile 'ci' -> database=None, deadline=None, print_blob=True, derandomize=True, suppress_health_check=(HealthCheck.too_slow,)
2025-05-07T20:23:37.7277668Z rootdir: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T20:23:37.7277969Z plugins: hypothesis-6.131.14
2025-05-07T20:23:39.5107184Z collecting ... collected 1 item
2025-05-07T20:23:39.5107491Z run-last-failure: rerun previous 1 failure
2025-05-07T20:23:39.5107688Z 
2025-05-07T20:23:58.3762549Z coalesce/coalesce_test.py::CoalesceTest::test_coalesce_batches FAILED
2025-05-07T20:23:58.3762878Z 
2025-05-07T20:23:58.3762986Z =================================== FAILURES ===================================
2025-05-07T20:23:58.3763369Z ______________________ CoalesceTest.test_coalesce_batches ______________________
2025-05-07T20:23:58.3763949Z 
2025-05-07T20:23:58.3764124Z self = <coalesce_test.CoalesceTest testMethod=test_coalesce_batches>
2025-05-07T20:23:58.3764399Z 
2025-05-07T20:23:58.3764458Z     @given(
2025-05-07T20:23:58.3764728Z >       device=st.sampled_from([torch.device("cpu"), torch.device("cuda")]),
2025-05-07T20:23:58.3765126Z         batch_size=st.integers(min_value=10, max_value=5000),
2025-05-07T20:23:58.3765462Z         num_inputs=st.integers(min_value=1, max_value=50),
2025-05-07T20:23:58.3765723Z     )
2025-05-07T20:23:58.3765812Z 
2025-05-07T20:23:58.3765894Z coalesce/coalesce_test.py:22: 
2025-05-07T20:23:58.3766162Z _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 
2025-05-07T20:23:58.3766502Z coalesce/coalesce_test.py:37: in test_coalesce_batches
2025-05-07T20:23:58.3766995Z     new_bids = torch.tensor(new_bids).to(device)
2025-05-07T20:23:58.3767288Z _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 
2025-05-07T20:23:58.3767501Z 
2025-05-07T20:23:58.3767566Z     def _lazy_init():
2025-05-07T20:23:58.3767767Z         global _initialized, _queued_calls
2025-05-07T20:23:58.3768072Z         if is_initialized() or hasattr(_tls, "is_initializing"):
2025-05-07T20:23:58.3768358Z             return
2025-05-07T20:23:58.3768540Z         with _initialization_lock:
2025-05-07T20:23:58.3768833Z             # We be double-checked locking, boys!  This is OK because
2025-05-07T20:23:58.3769193Z             # the above test was GIL protected anyway.  The inner test
2025-05-07T20:23:58.3769565Z             # is for when a thread blocked on some other thread which was
2025-05-07T20:23:58.3770120Z             # doing the initialization; when they get the lock, they will
2025-05-07T20:23:58.3770471Z             # find there is nothing left to do.
2025-05-07T20:23:58.3770731Z             if is_initialized():
2025-05-07T20:23:58.3770936Z                 return
2025-05-07T20:23:58.3771217Z             # It is important to prevent other threads from entering _lazy_init
2025-05-07T20:23:58.3771666Z             # immediately, while we are still guaranteed to have the GIL, because some
2025-05-07T20:23:58.3772064Z             # of the C calls we make below will release the GIL
2025-05-07T20:23:58.3772342Z             if _is_in_bad_fork():
2025-05-07T20:23:58.3772567Z                 raise RuntimeError(
2025-05-07T20:23:58.3772901Z                     "Cannot re-initialize CUDA in forked subprocess. To use CUDA with "
2025-05-07T20:23:58.3773328Z                     "multiprocessing, you must use the 'spawn' start method"
2025-05-07T20:23:58.3773627Z                 )
2025-05-07T20:23:58.3773848Z             if not hasattr(torch._C, "_cuda_getDeviceCount"):
2025-05-07T20:23:58.3774222Z                 raise AssertionError("Torch not compiled with CUDA enabled")
2025-05-07T20:23:58.3774548Z             if _cudart is None:
2025-05-07T20:23:58.3774767Z                 raise AssertionError(
2025-05-07T20:23:58.3775129Z                     "libcudart functions unavailable. It looks like you have a broken build?"
2025-05-07T20:23:58.3775488Z                 )
2025-05-07T20:23:58.3775778Z             # This function throws if there's a driver initialization error, no GPUs
2025-05-07T20:23:58.3776152Z             # are found or any other error occurs
2025-05-07T20:23:58.3776470Z             if "CUDA_MODULE_LOADING" not in os.environ:
2025-05-07T20:23:58.3776774Z                 os.environ["CUDA_MODULE_LOADING"] = "LAZY"
2025-05-07T20:23:58.3777041Z >           torch._C._cuda_init()
2025-05-07T20:23:58.3777836Z E           RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library
2025-05-07T20:23:58.3778671Z E           Falsifying example: test_coalesce_batches(
2025-05-07T20:23:58.3779035Z E               # The test always failed when commented parts were varied together.
2025-05-07T20:23:58.3779624Z E               self=<coalesce_test.CoalesceTest testMethod=test_coalesce_batches>,
2025-05-07T20:23:58.3779983Z E               device=device(type='cuda'),
2025-05-07T20:23:58.3780271Z E               batch_size=10,  # or any other generated value
2025-05-07T20:23:58.3780592Z E               num_inputs=1,  # or any other generated value
2025-05-07T20:23:58.3780852Z E           )
2025-05-07T20:23:58.3781021Z E           Explanation:
2025-05-07T20:23:58.3781286Z E               These lines were always and only run by failing examples:
2025-05-07T20:23:58.3781799Z E                   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:354
2025-05-07T20:23:58.3782225Z E           
2025-05-07T20:23:58.3782701Z E           You can reproduce this example by temporarily adding @reproduce_failure('6.131.14', b'AEEBQQpBAQ==') as a decorator on your test case
2025-05-07T20:23:58.3783254Z 
2025-05-07T20:23:58.3783569Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:382: RuntimeError
2025-05-07T20:23:58.3784090Z =============================== warnings summary ===============================
2025-05-07T20:23:58.3784573Z ../../../../../../../../_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181
2025-05-07T20:23:58.3786175Z   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:23:58.3787721Z     return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:23:58.3787924Z 
2025-05-07T20:23:58.3788133Z -- Docs: https://docs.pytest.org/en/stable/how-to/capture-warnings.html
2025-05-07T20:23:58.3788535Z ======================== 1 failed, 1 warning in 20.83s =========================
2025-05-07T20:23:58.9946440Z ERROR conda.cli.main_run:execute(125): `conda run python -m pytest -v -rsx -s -W ignore::pytest.PytestCollectionWarning --lf --last-failed-no-failures none ./coalesce/coalesce_test.py` failed. (See above for error)
2025-05-07T20:23:59.0696000Z [EXEC] [ATTEMPT 1/2] Command attempt failed.
2025-05-07T20:23:59.0696203Z 
2025-05-07T20:24:01.0722281Z [EXEC] [ATTEMPT 2/2]    + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python -m pytest -v -rsx -s -W ignore::pytest.PytestCollectionWarning --lf --last-failed-no-failures none ./coalesce/coalesce_test.py
2025-05-07T20:24:02.8917625Z ============================= test session starts ==============================
2025-05-07T20:24:02.8918214Z platform linux -- Python 3.9.22, pytest-8.3.5, pluggy-1.5.0 -- /__w/_temp/conda_environment_14891846315/bin/python
2025-05-07T20:24:02.8918686Z cachedir: .pytest_cache
2025-05-07T20:24:02.8919208Z hypothesis profile 'ci' -> database=None, deadline=None, print_blob=True, derandomize=True, suppress_health_check=(HealthCheck.too_slow,)
2025-05-07T20:24:02.8919831Z rootdir: /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/fbgemm_gpu
2025-05-07T20:24:02.8931073Z plugins: hypothesis-6.131.14
2025-05-07T20:24:04.7954940Z collecting ... collected 1 item
2025-05-07T20:24:04.7955246Z run-last-failure: rerun previous 1 failure
2025-05-07T20:24:04.7955442Z 
2025-05-07T20:24:23.3570885Z coalesce/coalesce_test.py::CoalesceTest::test_coalesce_batches FAILED
2025-05-07T20:24:23.3571210Z 
2025-05-07T20:24:23.3571320Z =================================== FAILURES ===================================
2025-05-07T20:24:23.3571732Z ______________________ CoalesceTest.test_coalesce_batches ______________________
2025-05-07T20:24:23.3572001Z 
2025-05-07T20:24:23.3572178Z self = <coalesce_test.CoalesceTest testMethod=test_coalesce_batches>
2025-05-07T20:24:23.3572455Z 
2025-05-07T20:24:23.3572514Z     @given(
2025-05-07T20:24:23.3572786Z >       device=st.sampled_from([torch.device("cpu"), torch.device("cuda")]),
2025-05-07T20:24:23.3573598Z         batch_size=st.integers(min_value=10, max_value=5000),
2025-05-07T20:24:23.3573934Z         num_inputs=st.integers(min_value=1, max_value=50),
2025-05-07T20:24:23.3574195Z     )
2025-05-07T20:24:23.3574283Z 
2025-05-07T20:24:23.3574364Z coalesce/coalesce_test.py:22: 
2025-05-07T20:24:23.3574623Z _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 
2025-05-07T20:24:23.3574952Z coalesce/coalesce_test.py:37: in test_coalesce_batches
2025-05-07T20:24:23.3575276Z     new_bids = torch.tensor(new_bids).to(device)
2025-05-07T20:24:23.3575569Z _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 
2025-05-07T20:24:23.3575777Z 
2025-05-07T20:24:23.3575853Z     def _lazy_init():
2025-05-07T20:24:23.3576053Z         global _initialized, _queued_calls
2025-05-07T20:24:23.3576494Z         if is_initialized() or hasattr(_tls, "is_initializing"):
2025-05-07T20:24:23.3576773Z             return
2025-05-07T20:24:23.3576961Z         with _initialization_lock:
2025-05-07T20:24:23.3577251Z             # We be double-checked locking, boys!  This is OK because
2025-05-07T20:24:23.3577614Z             # the above test was GIL protected anyway.  The inner test
2025-05-07T20:24:23.3577984Z             # is for when a thread blocked on some other thread which was
2025-05-07T20:24:23.3578362Z             # doing the initialization; when they get the lock, they will
2025-05-07T20:24:23.3578695Z             # find there is nothing left to do.
2025-05-07T20:24:23.3578945Z             if is_initialized():
2025-05-07T20:24:23.3579153Z                 return
2025-05-07T20:24:23.3579631Z             # It is important to prevent other threads from entering _lazy_init
2025-05-07T20:24:23.3580092Z             # immediately, while we are still guaranteed to have the GIL, because some
2025-05-07T20:24:23.3580495Z             # of the C calls we make below will release the GIL
2025-05-07T20:24:23.3580770Z             if _is_in_bad_fork():
2025-05-07T20:24:23.3580996Z                 raise RuntimeError(
2025-05-07T20:24:23.3581324Z                     "Cannot re-initialize CUDA in forked subprocess. To use CUDA with "
2025-05-07T20:24:23.3581746Z                     "multiprocessing, you must use the 'spawn' start method"
2025-05-07T20:24:23.3582039Z                 )
2025-05-07T20:24:23.3582254Z             if not hasattr(torch._C, "_cuda_getDeviceCount"):
2025-05-07T20:24:23.3582620Z                 raise AssertionError("Torch not compiled with CUDA enabled")
2025-05-07T20:24:23.3582973Z             if _cudart is None:
2025-05-07T20:24:23.3583193Z                 raise AssertionError(
2025-05-07T20:24:23.3583560Z                     "libcudart functions unavailable. It looks like you have a broken build?"
2025-05-07T20:24:23.3583923Z                 )
2025-05-07T20:24:23.3584215Z             # This function throws if there's a driver initialization error, no GPUs
2025-05-07T20:24:23.3584584Z             # are found or any other error occurs
2025-05-07T20:24:23.3584873Z             if "CUDA_MODULE_LOADING" not in os.environ:
2025-05-07T20:24:23.3585167Z                 os.environ["CUDA_MODULE_LOADING"] = "LAZY"
2025-05-07T20:24:23.3585432Z >           torch._C._cuda_init()
2025-05-07T20:24:23.3586204Z E           RuntimeError: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library
2025-05-07T20:24:23.3587025Z E           Falsifying example: test_coalesce_batches(
2025-05-07T20:24:23.3587396Z E               # The test always failed when commented parts were varied together.
2025-05-07T20:24:23.3587849Z E               self=<coalesce_test.CoalesceTest testMethod=test_coalesce_batches>,
2025-05-07T20:24:23.3588216Z E               device=device(type='cuda'),
2025-05-07T20:24:23.3588502Z E               batch_size=10,  # or any other generated value
2025-05-07T20:24:23.3588820Z E               num_inputs=1,  # or any other generated value
2025-05-07T20:24:23.3589179Z E           )
2025-05-07T20:24:23.3589346Z E           Explanation:
2025-05-07T20:24:23.3589625Z E               These lines were always and only run by failing examples:
2025-05-07T20:24:23.3590136Z E                   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:354
2025-05-07T20:24:23.3590558Z E           
2025-05-07T20:24:23.3591028Z E           You can reproduce this example by temporarily adding @reproduce_failure('6.131.14', b'AEEBQQpBAQ==') as a decorator on your test case
2025-05-07T20:24:23.3591508Z 
2025-05-07T20:24:23.3591943Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:382: RuntimeError
2025-05-07T20:24:23.3592466Z =============================== warnings summary ===============================
2025-05-07T20:24:23.3593030Z ../../../../../../../../_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181
2025-05-07T20:24:23.3594642Z   /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:24:23.3596072Z     return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:24:23.3596266Z 
2025-05-07T20:24:23.3596466Z -- Docs: https://docs.pytest.org/en/stable/how-to/capture-warnings.html
2025-05-07T20:24:23.3596868Z ======================== 1 failed, 1 warning in 20.65s =========================
2025-05-07T20:24:23.8353224Z ERROR conda.cli.main_run:execute(125): `conda run python -m pytest -v -rsx -s -W ignore::pytest.PytestCollectionWarning --lf --last-failed-no-failures none ./coalesce/coalesce_test.py` failed. (See above for error)
2025-05-07T20:24:23.8859736Z [EXEC] [ATTEMPT 2/2] Command attempt failed.
2025-05-07T20:24:23.8859972Z 
2025-05-07T20:24:23.8860128Z [EXEC] The command has failed after 2 + 1 attempts; aborting.
2025-05-07T20:24:23.8860679Z [TEST] Python test suite FAILED for some or all tests despite multiple retries: ./coalesce/coalesce_test.py
2025-05-07T20:24:23.8861068Z 
2025-05-07T20:24:23.8861073Z 
2025-05-07T20:24:23.8861081Z 
2025-05-07T20:24:23.8892528Z [NOVA] Time taken to test all unit tests: 125 seconds  / 00:02:05
2025-05-07T20:24:24.3233346Z ##[group]Run set -euxo pipefail
2025-05-07T20:24:24.3233672Z [36;1mset -euxo pipefail[0m
2025-05-07T20:24:24.3233897Z [36;1msource "${BUILD_ENV_FILE}"[0m
2025-05-07T20:24:24.3234163Z [36;1mWHEEL_NAME=$(ls "pytorch/FBGEMM/dist/")[0m
2025-05-07T20:24:24.3234425Z [36;1mecho "$WHEEL_NAME"[0m
2025-05-07T20:24:24.3234620Z [36;1m[0m
2025-05-07T20:24:24.3234873Z [36;1m${CONDA_RUN} pip install "pytorch/FBGEMM/dist/$WHEEL_NAME"[0m
2025-05-07T20:24:24.3235311Z [36;1m# Checking that we have a pinned version of torch in our dependency tree[0m
2025-05-07T20:24:24.3235658Z [36;1m([0m
2025-05-07T20:24:24.3235828Z [36;1m  pushd "${RUNNER_TEMP}"[0m
2025-05-07T20:24:24.3236145Z [36;1m  unzip -o "${GITHUB_WORKSPACE}/pytorch/FBGEMM/dist/$WHEEL_NAME"[0m
2025-05-07T20:24:24.3236765Z [36;1m  # Ensure that pytorch version is pinned, should output file where it was found[0m
2025-05-07T20:24:24.3237188Z [36;1m  grep "Requires-Dist: torch (==.*)" -r .[0m
2025-05-07T20:24:24.3237465Z [36;1m)[0m
2025-05-07T20:24:24.3237611Z [36;1m[0m
2025-05-07T20:24:24.3237842Z [36;1mif [[ (! -f "pytorch/FBGEMM"/${SMOKE_TEST_SCRIPT}) ]]; then[0m
2025-05-07T20:24:24.3238211Z [36;1m  echo "pytorch/FBGEMM/${SMOKE_TEST_SCRIPT} not found"[0m
2025-05-07T20:24:24.3238549Z [36;1m  if [[ "${PACKAGE_NAME}" = "torchrec" ]]; then[0m
2025-05-07T20:24:24.3238924Z [36;1m    # Special case for torchrec temporarily since __version__ does not[0m
2025-05-07T20:24:24.3239348Z [36;1m    # work correctly on main in torchrec. This block will be[0m
2025-05-07T20:24:24.3239671Z [36;1m    # removed once we fix it.[0m
2025-05-07T20:24:24.3240150Z [36;1m    ${CONDA_RUN} python -c "import ${PACKAGE_NAME}"[0m
2025-05-07T20:24:24.3240426Z [36;1m  else[0m
2025-05-07T20:24:24.3240820Z [36;1m    ${CONDA_RUN} python -c "import ${PACKAGE_NAME}; print('package version is ', ${PACKAGE_NAME}.__version__)"[0m
2025-05-07T20:24:24.3241264Z [36;1m  fi[0m
2025-05-07T20:24:24.3241419Z [36;1melse[0m
2025-05-07T20:24:24.3241646Z [36;1m  echo "pytorch/FBGEMM/${SMOKE_TEST_SCRIPT} found"[0m
2025-05-07T20:24:24.3242014Z [36;1m  ${CONDA_RUN} python "pytorch/FBGEMM/${SMOKE_TEST_SCRIPT}"[0m
2025-05-07T20:24:24.3242310Z [36;1mfi[0m
2025-05-07T20:24:24.3242552Z shell: bash -l {0}
2025-05-07T20:24:24.3242714Z env:
2025-05-07T20:24:24.3242868Z   PYTHON_VERSION: 3.9
2025-05-07T20:24:24.3243055Z   PACKAGE_TYPE: wheel
2025-05-07T20:24:24.3243395Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T20:24:24.3243596Z   REF: 
2025-05-07T20:24:24.3243736Z   CU_VERSION: cu128
2025-05-07T20:24:24.3243919Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T20:24:24.3244114Z   ARCH: aarch64
2025-05-07T20:24:24.3244280Z   BUILD_TARGET: genai
2025-05-07T20:24:24.3244454Z   CHANNEL: nightly
2025-05-07T20:24:24.3244666Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T20:24:24.3244962Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T20:24:24.3245265Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T20:24:24.3245620Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:24:24.3245935Z   PACKAGE_NAME: fbgemm_gpu
2025-05-07T20:24:24.3246135Z   SMOKE_TEST_SCRIPT: 
2025-05-07T20:24:24.3246313Z ##[endgroup]
2025-05-07T20:24:24.5428633Z + source /__w/_temp/build_env_14891846315
2025-05-07T20:24:24.5428959Z ++ export BUILD_VERSION=0.1.0.dev20250507
2025-05-07T20:24:24.5429220Z ++ BUILD_VERSION=0.1.0.dev20250507
2025-05-07T20:24:24.5429489Z ++ export CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T20:24:24.5429741Z ++ CUDA_HOME=/usr/local/cuda-12.8
2025-05-07T20:24:24.5429983Z ++ export CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T20:24:24.5430240Z ++ CUDA_PATH=/usr/local/cuda-12.8
2025-05-07T20:24:24.5430467Z ++ export FORCE_CUDA=1
2025-05-07T20:24:24.5430643Z ++ FORCE_CUDA=1
2025-05-07T20:24:24.5432044Z ++ export PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:24:24.5433705Z ++ PATH=/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:24:24.5435356Z ++ export PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:24:24.5437801Z ++ PATH=/usr/local/cuda-12.8/bin:/opt/python/cp39-cp39/bin:/usr/share/Modules/bin:/opt/conda/bin:/usr/local/cuda/bin:/opt/rh/gcc-toolset-11/root/usr/bin:/opt/rh/gcc-toolset-14/root/usr/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
2025-05-07T20:24:24.5439067Z ++ export 'PIP_INSTALL_TORCH=pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T20:24:24.5439770Z ++ PIP_INSTALL_TORCH='pip install torch --pre --index-url https://download.pytorch.org/whl/nightly/cu128'
2025-05-07T20:24:24.5440307Z ++ export PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T20:24:24.5440676Z ++ PYTORCH_S3_BUCKET_PATH=s3://pytorch/whl/nightly/cu128/
2025-05-07T20:24:24.5440977Z ++ export PYTORCH_VERSION_SUFFIX=
2025-05-07T20:24:24.5441204Z ++ PYTORCH_VERSION_SUFFIX=
2025-05-07T20:24:24.5441503Z ++ export 'TORCH_CUDA_ARCH_LIST=5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:24:24.5441898Z ++ TORCH_CUDA_ARCH_LIST='5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:24:24.5442389Z ++ export VERSION_SUFFIX=
2025-05-07T20:24:24.5442582Z ++ VERSION_SUFFIX=
2025-05-07T20:24:24.5442750Z ++ export WHEEL_DIR=
2025-05-07T20:24:24.5442925Z ++ WHEEL_DIR=
2025-05-07T20:24:24.5443095Z ++ FBGEMM_DIR=/__w/FBGEMM/FBGEMM
2025-05-07T20:24:24.5443367Z ++ export FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:24:24.5443677Z ++ FBGEMM_REPO=/__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:24:24.5443975Z +++ pwd
2025-05-07T20:24:24.5444138Z ++ working_dir=/__w/FBGEMM/FBGEMM
2025-05-07T20:24:24.5444468Z ++ [[ /__w/FBGEMM/FBGEMM == \/\_\_\w\/\F\B\G\E\M\M\/\F\B\G\E\M\M\/\p\y\t\o\r\c\h\/\F\B\G\E\M\M ]]
2025-05-07T20:24:24.5444816Z ++ export BUILD_FROM_NOVA=1
2025-05-07T20:24:24.5445012Z ++ BUILD_FROM_NOVA=1
2025-05-07T20:24:24.5445190Z ++ [[ cu128 == \c\u* ]]
2025-05-07T20:24:24.5445627Z ++ echo 'Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0'
2025-05-07T20:24:24.5446026Z ++ [[ /__w/_temp/conda_environment_14891846315 != '' ]]
2025-05-07T20:24:24.5446471Z ++ export 'CONDA_RUN=conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:24:24.5447026Z ++ CONDA_RUN='conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:24:24.5447540Z ++ echo 'conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315'
2025-05-07T20:24:24.5447907Z ++ [[ cu128 == \c\u\1\2\8 ]]
2025-05-07T20:24:24.5448170Z ++ export 'TORCH_CUDA_ARCH_LIST=7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:24:24.5448504Z ++ TORCH_CUDA_ARCH_LIST='7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:24:24.5448837Z ++ echo 'Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a'
2025-05-07T20:24:24.5449142Z ++ ls pytorch/FBGEMM/dist/
2025-05-07T20:24:24.5449459Z Current TORCH_CUDA_ARCH_LIST value: 5.0+PTX;6.0;7.0;7.5;8.0;8.6;9.0;10.0;12.0
2025-05-07T20:24:24.5449920Z conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:24:24.5450316Z Set TORCH_CUDA_ARCH_LIST to: 7.0;8.0;9.0;9.0a;10.0a;12.0a
2025-05-07T20:24:24.5454769Z + WHEEL_NAME=fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:24:24.5455262Z + echo fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:24:24.5456087Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 pip install pytorch/FBGEMM/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:24:24.5457195Z fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:24:25.7527666Z WARNING: overwriting environment variables set in the machine
2025-05-07T20:24:25.7528074Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T20:24:26.1957059Z Processing ./pytorch/FBGEMM/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:24:26.2182061Z Requirement already satisfied: numpy in /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages (from fbgemm-gpu-genai==2025.5.7+cu128) (2.0.2)
2025-05-07T20:24:26.2210644Z fbgemm-gpu-genai is already installed with the same version as the provided wheel. Use --force-reinstall to force an installation of the wheel.
2025-05-07T20:24:26.3790216Z WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager, possibly rendering your system unusable. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv. Use the --root-user-action option if you know what you are doing and want to suppress this warning.
2025-05-07T20:24:26.5526601Z + pushd /__w/_temp
2025-05-07T20:24:26.5527144Z + unzip -o /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:24:26.5527679Z /__w/_temp /__w/FBGEMM/FBGEMM
2025-05-07T20:24:26.5570347Z Archive:  /__w/FBGEMM/FBGEMM/pytorch/FBGEMM/dist/fbgemm_gpu_genai-2025.5.7+cu128-cp39-cp39-manylinux_2_28_aarch64.whl
2025-05-07T20:24:26.5571755Z   inflating: fbgemm_gpu/__init__.py  
2025-05-07T20:24:26.5619216Z   inflating: fbgemm_gpu/asmjit.so    
2025-05-07T20:24:26.5620258Z   inflating: fbgemm_gpu/batched_unary_embeddings_ops.py  
2025-05-07T20:24:26.5620716Z   inflating: fbgemm_gpu/enums.py     
2025-05-07T20:24:26.5703830Z   inflating: fbgemm_gpu/fbgemm.so    
2025-05-07T20:24:26.5705375Z   inflating: fbgemm_gpu/metrics.py   
2025-05-07T20:24:26.5706086Z   inflating: fbgemm_gpu/permute_pooled_embedding_modules.py  
2025-05-07T20:24:26.5707089Z   inflating: fbgemm_gpu/permute_pooled_embedding_modules_split.py  
2025-05-07T20:24:26.5708309Z   inflating: fbgemm_gpu/quantize_comm.py  
2025-05-07T20:24:26.5709291Z   inflating: fbgemm_gpu/quantize_utils.py  
2025-05-07T20:24:26.5710214Z   inflating: fbgemm_gpu/runtime_monitor.py  
2025-05-07T20:24:26.5713790Z   inflating: fbgemm_gpu/sparse_ops.py  
2025-05-07T20:24:26.5714668Z   inflating: fbgemm_gpu/split_embedding_configs.py  
2025-05-07T20:24:26.5715631Z   inflating: fbgemm_gpu/split_embedding_inference_converter.py  
2025-05-07T20:24:26.5716481Z   inflating: fbgemm_gpu/split_embedding_optimizer_ops.py  
2025-05-07T20:24:26.5716928Z   inflating: fbgemm_gpu/split_embedding_utils.py  
2025-05-07T20:24:26.5717533Z   inflating: fbgemm_gpu/split_table_batched_embeddings_ops.py  
2025-05-07T20:24:26.5718837Z   inflating: fbgemm_gpu/split_table_batched_embeddings_ops_common.py  
2025-05-07T20:24:26.5724596Z   inflating: fbgemm_gpu/split_table_batched_embeddings_ops_inference.py  
2025-05-07T20:24:26.5735843Z   inflating: fbgemm_gpu/split_table_batched_embeddings_ops_training.py  
2025-05-07T20:24:26.5736901Z   inflating: fbgemm_gpu/split_table_batched_embeddings_ops_training_common.py  
2025-05-07T20:24:26.5737394Z   inflating: fbgemm_gpu/ssd_split_table_batched_embeddings_ops.py  
2025-05-07T20:24:26.5737891Z   inflating: fbgemm_gpu/tbe_input_multiplexer.py  
2025-05-07T20:24:26.5738289Z   inflating: fbgemm_gpu/uvm.py       
2025-05-07T20:24:26.5738909Z   inflating: fbgemm_gpu/config/__init__.py  
2025-05-07T20:24:26.5739580Z   inflating: fbgemm_gpu/config/feature_list.py  
2025-05-07T20:24:26.5740246Z   inflating: fbgemm_gpu/docs/__init__.py  
2025-05-07T20:24:26.5740603Z   inflating: fbgemm_gpu/docs/common.py  
2025-05-07T20:24:26.5741204Z   inflating: fbgemm_gpu/docs/examples.py  
2025-05-07T20:24:26.5742174Z   inflating: fbgemm_gpu/docs/jagged_tensor_ops.py  
2025-05-07T20:24:26.5742597Z   inflating: fbgemm_gpu/docs/merge_pooled_embedding_ops.py  
2025-05-07T20:24:26.5743706Z   inflating: fbgemm_gpu/docs/permute_pooled_embedding_ops.py  
2025-05-07T20:24:26.5744072Z   inflating: fbgemm_gpu/docs/quantize_ops.py  
2025-05-07T20:24:26.5746197Z   inflating: fbgemm_gpu/docs/sparse_ops.py  
2025-05-07T20:24:26.5746482Z   inflating: fbgemm_gpu/docs/version.py  
2025-05-07T20:24:26.5747189Z   inflating: fbgemm_gpu/experimental/bench/__init__.py  
2025-05-07T20:24:26.5748137Z   inflating: fbgemm_gpu/experimental/bench/ck_bf16_bench.py  
2025-05-07T20:24:26.5749179Z   inflating: fbgemm_gpu/experimental/bench/comm_bench.py  
2025-05-07T20:24:26.5750533Z   inflating: fbgemm_gpu/experimental/bench/gather_scatter_bench.py  
2025-05-07T20:24:26.5752649Z   inflating: fbgemm_gpu/experimental/bench/quantize_bench.py  
2025-05-07T20:24:26.5756761Z   inflating: fbgemm_gpu/experimental/bench/quantize_ops.py  
2025-05-07T20:24:26.5757351Z   inflating: fbgemm_gpu/experimental/example/__init__.py  
2025-05-07T20:24:26.5793459Z   inflating: fbgemm_gpu/experimental/example/fbgemm_gpu_experimental_example_py.so  
2025-05-07T20:24:26.5794128Z   inflating: fbgemm_gpu/experimental/example/utils.py  
2025-05-07T20:24:26.5795015Z   inflating: fbgemm_gpu/experimental/gemm/triton_gemm/__init__.py  
2025-05-07T20:24:26.5803206Z   inflating: fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py  
2025-05-07T20:24:26.5806165Z   inflating: fbgemm_gpu/experimental/gemm/triton_gemm/grouped_gemm.py  
2025-05-07T20:24:26.5807313Z   inflating: fbgemm_gpu/experimental/gemm/triton_gemm/matmul_perf_model.py  
2025-05-07T20:24:26.5807894Z   inflating: fbgemm_gpu/experimental/gemm/triton_gemm/utils.py  
2025-05-07T20:24:26.5808543Z   inflating: fbgemm_gpu/experimental/gen_ai/__init__.py  
2025-05-07T20:24:27.1240961Z   inflating: fbgemm_gpu/experimental/gen_ai/fbgemm_gpu_experimental_gen_ai.so  
2025-05-07T20:24:27.1242267Z   inflating: fbgemm_gpu/experimental/gen_ai/quantize.py  
2025-05-07T20:24:27.1242882Z   inflating: fbgemm_gpu/experimental/gen_ai/moe/README.md  
2025-05-07T20:24:27.1243433Z   inflating: fbgemm_gpu/experimental/gen_ai/moe/__init__.py  
2025-05-07T20:24:27.1244388Z   inflating: fbgemm_gpu/experimental/gen_ai/moe/activation.py  
2025-05-07T20:24:27.1245984Z   inflating: fbgemm_gpu/experimental/gen_ai/moe/gather_scatter.py  
2025-05-07T20:24:27.1249001Z   inflating: fbgemm_gpu/experimental/gen_ai/moe/layers.py  
2025-05-07T20:24:27.1250005Z   inflating: fbgemm_gpu/experimental/gen_ai/moe/shuffling.py  
2025-05-07T20:24:27.1250751Z   inflating: fbgemm_gpu/quantize/__init__.py  
2025-05-07T20:24:27.1251235Z   inflating: fbgemm_gpu/quantize/quantize_ops.py  
2025-05-07T20:24:27.1252129Z   inflating: fbgemm_gpu/sll/__init__.py  
2025-05-07T20:24:27.1252813Z   inflating: fbgemm_gpu/sll/cpu/__init__.py  
2025-05-07T20:24:27.1255186Z   inflating: fbgemm_gpu/sll/cpu/cpu_sll.py  
2025-05-07T20:24:27.1255566Z   inflating: fbgemm_gpu/sll/meta/__init__.py  
2025-05-07T20:24:27.1256482Z   inflating: fbgemm_gpu/sll/meta/meta_sll.py  
2025-05-07T20:24:27.1257268Z   inflating: fbgemm_gpu/sll/triton/__init__.py  
2025-05-07T20:24:27.1257784Z   inflating: fbgemm_gpu/sll/triton/common.py  
2025-05-07T20:24:27.1258431Z   inflating: fbgemm_gpu/sll/triton/triton_dense_jagged_cat_jagged_out.py  
2025-05-07T20:24:27.1259218Z   inflating: fbgemm_gpu/sll/triton/triton_jagged2_to_padded_dense.py  
2025-05-07T20:24:27.1260401Z   inflating: fbgemm_gpu/sll/triton/triton_jagged_bmm.py  
2025-05-07T20:24:27.1262208Z   inflating: fbgemm_gpu/sll/triton/triton_jagged_bmm_jagged_out.py  
2025-05-07T20:24:27.1262784Z   inflating: fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_add.py  
2025-05-07T20:24:27.1263554Z   inflating: fbgemm_gpu/sll/triton/triton_jagged_dense_elementwise_mul_jagged_out.py  
2025-05-07T20:24:27.1265521Z   inflating: fbgemm_gpu/sll/triton/triton_jagged_dense_flash_attention.py  
2025-05-07T20:24:27.1267132Z   inflating: fbgemm_gpu/sll/triton/triton_jagged_flash_attention_basic.py  
2025-05-07T20:24:27.1267778Z   inflating: fbgemm_gpu/sll/triton/triton_jagged_self_substraction_jagged_out.py  
2025-05-07T20:24:27.1269335Z   inflating: fbgemm_gpu/sll/triton/triton_jagged_softmax.py  
2025-05-07T20:24:27.1270786Z   inflating: fbgemm_gpu/sll/triton/triton_multi_head_jagged_flash_attention.py  
2025-05-07T20:24:27.1271342Z   inflating: fbgemm_gpu/tbe/__init__.py  
2025-05-07T20:24:27.1271908Z   inflating: fbgemm_gpu/tbe/bench/__init__.py  
2025-05-07T20:24:27.1272806Z   inflating: fbgemm_gpu/tbe/bench/bench_config.py  
2025-05-07T20:24:27.1274557Z   inflating: fbgemm_gpu/tbe/bench/bench_runs.py  
2025-05-07T20:24:27.1275121Z   inflating: fbgemm_gpu/tbe/bench/eeg_cli.py  
2025-05-07T20:24:27.1276072Z   inflating: fbgemm_gpu/tbe/bench/embedding_ops_common_config.py  
2025-05-07T20:24:27.1276615Z   inflating: fbgemm_gpu/tbe/bench/eval_compression.py  
2025-05-07T20:24:27.1277126Z   inflating: fbgemm_gpu/tbe/bench/reporter.py  
2025-05-07T20:24:27.1278537Z   inflating: fbgemm_gpu/tbe/bench/tbe_data_config.py  
2025-05-07T20:24:27.1279539Z   inflating: fbgemm_gpu/tbe/bench/tbe_data_config_loader.py  
2025-05-07T20:24:27.1280443Z   inflating: fbgemm_gpu/tbe/bench/tbe_data_config_param_models.py  
2025-05-07T20:24:27.1280832Z   inflating: fbgemm_gpu/tbe/bench/utils.py  
2025-05-07T20:24:27.1281494Z   inflating: fbgemm_gpu/tbe/cache/__init__.py  
2025-05-07T20:24:27.1282006Z   inflating: fbgemm_gpu/tbe/cache/split_embeddings_cache_ops.py  
2025-05-07T20:24:27.1282545Z   inflating: fbgemm_gpu/tbe/ssd/__init__.py  
2025-05-07T20:24:27.1282953Z   inflating: fbgemm_gpu/tbe/ssd/common.py  
2025-05-07T20:24:27.1285097Z   inflating: fbgemm_gpu/tbe/ssd/inference.py  
2025-05-07T20:24:27.1291954Z   inflating: fbgemm_gpu/tbe/ssd/training.py  
2025-05-07T20:24:27.1292573Z   inflating: fbgemm_gpu/tbe/ssd/utils/__init__.py  
2025-05-07T20:24:27.1293500Z   inflating: fbgemm_gpu/tbe/ssd/utils/partially_materialized_tensor.py  
2025-05-07T20:24:27.1294011Z   inflating: fbgemm_gpu/tbe/stats/__init__.py  
2025-05-07T20:24:27.1295011Z   inflating: fbgemm_gpu/tbe/stats/bench_params_reporter.py  
2025-05-07T20:24:27.1295520Z   inflating: fbgemm_gpu/tbe/utils/__init__.py  
2025-05-07T20:24:27.1296086Z   inflating: fbgemm_gpu/tbe/utils/common.py  
2025-05-07T20:24:27.1296673Z   inflating: fbgemm_gpu/tbe/utils/offsets.py  
2025-05-07T20:24:27.1297627Z   inflating: fbgemm_gpu/tbe/utils/quantize.py  
2025-05-07T20:24:27.1299382Z   inflating: fbgemm_gpu/tbe/utils/requests.py  
2025-05-07T20:24:27.1299943Z   inflating: fbgemm_gpu/triton/__init__.py  
2025-05-07T20:24:27.1300575Z   inflating: fbgemm_gpu/triton/common.py  
2025-05-07T20:24:27.1302991Z   inflating: fbgemm_gpu/triton/quantize.py  
2025-05-07T20:24:27.1304232Z   inflating: fbgemm_gpu/triton/quantize_ref.py  
2025-05-07T20:24:27.1304758Z   inflating: fbgemm_gpu/triton/jagged/__init__.py  
2025-05-07T20:24:27.1307437Z   inflating: fbgemm_gpu/triton/jagged/triton_jagged_tensor_ops.py  
2025-05-07T20:24:27.1307882Z   inflating: fbgemm_gpu/utils/__init__.py  
2025-05-07T20:24:27.1308502Z   inflating: fbgemm_gpu/utils/filestore.py  
2025-05-07T20:24:27.1309238Z   inflating: fbgemm_gpu/utils/loader.py  
2025-05-07T20:24:27.1310433Z   inflating: fbgemm_gpu/utils/torch_library.py  
2025-05-07T20:24:27.1310940Z   inflating: fbgemm_gpu_genai-2025.5.7+cu128.dist-info/METADATA  
2025-05-07T20:24:27.1311340Z   inflating: fbgemm_gpu_genai-2025.5.7+cu128.dist-info/WHEEL  
2025-05-07T20:24:27.1311852Z   inflating: fbgemm_gpu_genai-2025.5.7+cu128.dist-info/top_level.txt  
2025-05-07T20:24:27.1313159Z   inflating: fbgemm_gpu_genai-2025.5.7+cu128.dist-info/RECORD  
2025-05-07T20:24:27.1317018Z + grep 'Requires-Dist: torch (==.*)' -r .
2025-05-07T20:25:46.9430891Z ./4d6d19db-7fa5-41e7-b161-a2c51a28962d.sh:  grep "Requires-Dist: torch (==.*)" -r .
2025-05-07T20:25:46.9442321Z + [[ ! -f pytorch/FBGEMM/ ]]
2025-05-07T20:25:46.9442556Z + echo 'pytorch/FBGEMM/ not found'
2025-05-07T20:25:46.9442799Z + [[ fbgemm_gpu = \t\o\r\c\h\r\e\c ]]
2025-05-07T20:25:46.9443048Z pytorch/FBGEMM/ not found
2025-05-07T20:25:46.9444090Z + conda run --no-capture-output -p /__w/_temp/conda_environment_14891846315 python -c 'import fbgemm_gpu; print('\''package version is '\'', fbgemm_gpu.__version__)'
2025-05-07T20:25:48.1217768Z WARNING: overwriting environment variables set in the machine
2025-05-07T20:25:48.1218150Z overwriting variable ['LD_LIBRARY_PATH']
2025-05-07T20:25:49.4881529Z /__w/_temp/conda_environment_14891846315/lib/python3.9/site-packages/torch/cuda/__init__.py:181: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 34: CUDA driver is a stub library (Triggered internally at /pytorch/c10/cuda/CUDAFunctions.cpp:109.)
2025-05-07T20:25:49.4883037Z   return torch._C._cuda_getDeviceCount() > 0
2025-05-07T20:25:49.8092778Z package version is  2025.5.7+cu128
2025-05-07T20:25:50.2470452Z ##[group]Run actions/upload-artifact@ea165f8d65b6e75b540449e92b4886f43607fa02
2025-05-07T20:25:50.2470861Z with:
2025-05-07T20:25:50.2471037Z   name: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T20:25:50.2471290Z   path: pytorch/FBGEMM/dist/
2025-05-07T20:25:50.2471504Z   if-no-files-found: warn
2025-05-07T20:25:50.2471704Z   compression-level: 6
2025-05-07T20:25:50.2472042Z   overwrite: false
2025-05-07T20:25:50.2472231Z   include-hidden-files: false
2025-05-07T20:25:50.2472434Z env:
2025-05-07T20:25:50.2472585Z   PYTHON_VERSION: 3.9
2025-05-07T20:25:50.2472771Z   PACKAGE_TYPE: wheel
2025-05-07T20:25:50.2472964Z   REPOSITORY: pytorch/FBGEMM
2025-05-07T20:25:50.2473179Z   REF: 
2025-05-07T20:25:50.2473321Z   CU_VERSION: cu128
2025-05-07T20:25:50.2473501Z   UPLOAD_TO_BASE_BUCKET: no
2025-05-07T20:25:50.2473692Z   ARCH: aarch64
2025-05-07T20:25:50.2474073Z   BUILD_TARGET: genai
2025-05-07T20:25:50.2474248Z   CHANNEL: nightly
2025-05-07T20:25:50.2474481Z   ARTIFACT_NAME: pytorch_FBGEMM__3.9_cu128_aarch64
2025-05-07T20:25:50.2474779Z   BUILD_ENV_FILE: /__w/_temp/build_env_14891846315
2025-05-07T20:25:50.2475080Z   CONDA_ENV: /__w/_temp/conda_environment_14891846315
2025-05-07T20:25:50.2475436Z   CONDA_RUN: conda run -p /__w/_temp/conda_environment_14891846315
2025-05-07T20:25:50.2475744Z ##[endgroup]
2025-05-07T20:25:50.2478658Z ##[command]/usr/bin/docker exec  c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9 sh -c "cat /etc/*release | grep ^ID"
2025-05-07T20:25:50.6913881Z With the provided path, there will be 1 file uploaded
2025-05-07T20:25:50.6918478Z Artifact name is valid!
2025-05-07T20:25:50.6919523Z Root directory input is valid!
2025-05-07T20:25:50.8475378Z Beginning upload of artifact content to blob storage
2025-05-07T20:25:51.4193644Z Uploaded bytes 8388608
2025-05-07T20:25:51.6005978Z Uploaded bytes 16777216
2025-05-07T20:25:51.6294831Z Uploaded bytes 17521651
2025-05-07T20:25:51.6451197Z Finished uploading artifact content to blob storage!
2025-05-07T20:25:51.6454508Z SHA256 digest of uploaded artifact zip is f6a2b9f883a0748f87303354e4d227e175c5d608e4a83e795cad851f31d76efb
2025-05-07T20:25:51.6456246Z Finalizing artifact upload
2025-05-07T20:25:51.8621112Z Artifact pytorch_FBGEMM__3.9_cu128_aarch64.zip successfully finalized. Artifact ID 3081552544
2025-05-07T20:25:51.8621866Z Artifact pytorch_FBGEMM__3.9_cu128_aarch64 has been successfully uploaded! Final size is 17521651 bytes. Artifact ID is 3081552544
2025-05-07T20:25:51.8628649Z Artifact download URL: https://github.com/pytorch/FBGEMM/actions/runs/14891846315/artifacts/3081552544
2025-05-07T20:25:51.8819002Z Post job cleanup.
2025-05-07T20:25:51.8886333Z Post job cleanup.
2025-05-07T20:25:51.8976813Z Post job cleanup.
2025-05-07T20:25:51.9026019Z Post job cleanup.
2025-05-07T20:25:51.9029778Z ##[command]/usr/bin/docker exec  c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9 sh -c "cat /etc/*release | grep ^ID"
2025-05-07T20:25:52.1842274Z [command]/usr/local/bin/git version
2025-05-07T20:25:52.1897405Z git version 2.49.0
2025-05-07T20:25:52.1934263Z Copying '/github/home/.gitconfig' to '/__w/_temp/03f3e622-8b62-4d11-aaf4-077a4b8592c9/.gitconfig'
2025-05-07T20:25:52.1954313Z Temporarily overriding HOME='/__w/_temp/03f3e622-8b62-4d11-aaf4-077a4b8592c9' before making global git config changes
2025-05-07T20:25:52.1954999Z Adding repository directory to the temporary git global config as a safe directory
2025-05-07T20:25:52.1961032Z [command]/usr/local/bin/git config --global --add safe.directory /__w/FBGEMM/FBGEMM/pytorch/FBGEMM
2025-05-07T20:25:52.2002842Z [command]/usr/local/bin/git config --local --name-only --get-regexp core\.sshCommand
2025-05-07T20:25:52.2039490Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local --name-only --get-regexp 'core\.sshCommand' && git config --local --unset-all 'core.sshCommand' || :"
2025-05-07T20:25:52.2396641Z Entering 'external/asmjit'
2025-05-07T20:25:52.2463039Z Entering 'external/composable_kernel'
2025-05-07T20:25:52.2577765Z Entering 'external/cpuinfo'
2025-05-07T20:25:52.2649223Z Entering 'external/cutlass'
2025-05-07T20:25:52.2768499Z Entering 'external/googletest'
2025-05-07T20:25:52.2836303Z Entering 'external/hipify_torch'
2025-05-07T20:25:52.2904566Z Entering 'external/json'
2025-05-07T20:25:52.2996776Z [command]/usr/local/bin/git config --local --name-only --get-regexp http\.https\:\/\/github\.com\/\.extraheader
2025-05-07T20:25:52.3018515Z http.https://github.com/.extraheader
2025-05-07T20:25:52.3031035Z [command]/usr/local/bin/git config --local --unset-all http.https://github.com/.extraheader
2025-05-07T20:25:52.3063365Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local --name-only --get-regexp 'http\.https\:\/\/github\.com\/\.extraheader' && git config --local --unset-all 'http.https://github.com/.extraheader' || :"
2025-05-07T20:25:52.3389640Z Entering 'external/asmjit'
2025-05-07T20:25:52.3431374Z http.https://github.com/.extraheader
2025-05-07T20:25:52.3471107Z Entering 'external/composable_kernel'
2025-05-07T20:25:52.3514025Z http.https://github.com/.extraheader
2025-05-07T20:25:52.3556504Z Entering 'external/cpuinfo'
2025-05-07T20:25:52.3599173Z http.https://github.com/.extraheader
2025-05-07T20:25:52.3636294Z Entering 'external/cutlass'
2025-05-07T20:25:52.3679329Z http.https://github.com/.extraheader
2025-05-07T20:25:52.3722080Z Entering 'external/googletest'
2025-05-07T20:25:52.3768611Z http.https://github.com/.extraheader
2025-05-07T20:25:52.3804206Z Entering 'external/hipify_torch'
2025-05-07T20:25:52.3848376Z http.https://github.com/.extraheader
2025-05-07T20:25:52.3882656Z Entering 'external/json'
2025-05-07T20:25:52.3925260Z http.https://github.com/.extraheader
2025-05-07T20:25:52.4152717Z Post job cleanup.
2025-05-07T20:25:52.4157035Z ##[command]/usr/bin/docker exec  c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9 sh -c "cat /etc/*release | grep ^ID"
2025-05-07T20:25:52.6898000Z [command]/usr/local/bin/git version
2025-05-07T20:25:52.6934704Z git version 2.49.0
2025-05-07T20:25:52.6971537Z Copying '/github/home/.gitconfig' to '/__w/_temp/f794a1e5-43e3-4a96-94f3-b952015cafac/.gitconfig'
2025-05-07T20:25:52.6981778Z Temporarily overriding HOME='/__w/_temp/f794a1e5-43e3-4a96-94f3-b952015cafac' before making global git config changes
2025-05-07T20:25:52.6982456Z Adding repository directory to the temporary git global config as a safe directory
2025-05-07T20:25:52.6988334Z [command]/usr/local/bin/git config --global --add safe.directory /__w/FBGEMM/FBGEMM/test-infra
2025-05-07T20:25:52.7035673Z [command]/usr/local/bin/git config --local --name-only --get-regexp core\.sshCommand
2025-05-07T20:25:52.7071625Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local --name-only --get-regexp 'core\.sshCommand' && git config --local --unset-all 'core.sshCommand' || :"
2025-05-07T20:25:52.7415929Z [command]/usr/local/bin/git config --local --name-only --get-regexp http\.https\:\/\/github\.com\/\.extraheader
2025-05-07T20:25:52.7437652Z http.https://github.com/.extraheader
2025-05-07T20:25:52.7451571Z [command]/usr/local/bin/git config --local --unset-all http.https://github.com/.extraheader
2025-05-07T20:25:52.7488437Z [command]/usr/local/bin/git submodule foreach --recursive sh -c "git config --local --name-only --get-regexp 'http\.https\:\/\/github\.com\/\.extraheader' && git config --local --unset-all 'http.https://github.com/.extraheader' || :"
2025-05-07T20:25:52.7920704Z Stop and remove container: 942317bcbb4542cbbd64fa2992180430_pytorchmanylinuxaarch64buildercuda128_f33e4e
2025-05-07T20:25:52.7926316Z ##[command]/usr/bin/docker rm --force c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9
2025-05-07T20:25:54.8066594Z c0ec2cda8dde502191ccd3f0a8d4ae76b426d3543802b2ae429f95896f2ddbb9
2025-05-07T20:25:54.8093139Z Remove container network: github_network_682bb2285bea4b2c8b06125769a92e52
2025-05-07T20:25:54.8097452Z ##[command]/usr/bin/docker network rm github_network_682bb2285bea4b2c8b06125769a92e52
2025-05-07T20:25:55.7000298Z github_network_682bb2285bea4b2c8b06125769a92e52
2025-05-07T20:25:55.7028633Z A job completed hook has been configured by the self-hosted runner administrator
2025-05-07T20:25:55.7044300Z ##[group]Run '/home/ec2-user/runner-scripts/after_job.sh'
2025-05-07T20:25:55.7049314Z shell: /usr/bin/bash --noprofile --norc -e -o pipefail {0}
2025-05-07T20:25:55.7049621Z ##[endgroup]
2025-05-07T20:25:55.7202942Z [!ALERT!] Swap in detected! [!ALERT!]
2025-05-07T20:26:15.2049455Z Cleaning up orphan processes