Support Engineer - AI Server Systems

Tenstorrent Tenstorrent · Semiconductors · Tokyo, Japan · Customer Success

Support Engineer for AI Server Systems, responsible for maintenance, troubleshooting, and preventative maintenance of AI infrastructure including GPU clusters, storage, and networking equipment. Requires hardware troubleshooting skills, Linux server experience, and communication abilities in Japanese and English.

What you'd actually do

  1. AIサーバーおよび関連システム(GPUクラスタ、ストレージ、ネットワーク機器等)の保守・点検・障害対応
  2. サーバー障害時の一次切り分け、オンサイト修理、部品交換
  3. NOC(Network Operations Center)やリモート監視ツールを用いた稼働状況の監視およびログ分析
  4. トラブル発生時のインシデントレポート作成と関係者への報告
  5. ファームウェア、BIOS、ドライバの更新対応

Skills

Required

  • x86 server maintenance, especially GPU servers
  • Hardware fault isolation (power, memory, storage, PCIe, GPU, etc.)
  • Linux environment operation (Ubuntu, RHEL, CentOS, etc.)
  • Basic network knowledge (L2/L3, TCP/IP, DHCP, IPMI)
  • Technical support experience in customer environments or on-site support experience
  • Documentation skills for troubleshooting and maintenance work
  • Experience using diagnostic tools such as IPMItool, smartctl, nvidia-smi
  • Ability to read English manuals and communicate with overseas support desks
  • Valid driver's license

Nice to have

  • Experience with NVIDIA GPU servers (DGX, HGX, etc.) or hardware from Supermicro, Inspur, Lambda
  • Knowledge of Ethernet, InfiniBand, NVLink, PCIe switches
  • Data center operations and maintenance experience
  • Basic knowledge of GPU-based deep learning and AI workloads
  • Experience with simple automation using Linux shell scripting

What the JD emphasized

  • x86サーバー、特にGPUサーバーの保守経験
  • ハードウェア障害の切り分けスキル(電源、メモリ、ストレージ、PCIe、GPU等)
  • Linux環境(Ubuntu、RHEL、CentOS等)での操作経験
  • 基本的なネットワーク知識(L2/L3、TCP/IP、DHCP、IPMI)
  • 顧客現場での技術サポート経験、またはオンサイト対応経験
  • 障害対応や保守作業に関するドキュメント作成スキル
  • IPMItool、smartctl、nvidia-smi等の診断ツール使用経験
  • 英語マニュアルの読解力、および海外サポート窓口とのやり取り経験
  • 普通自動車運転免許