{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Tutorial: Predicting Spectral Library from Fasta"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "%reload_ext autoreload\n",
    "%autoreload 2"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Predict fasta libray and save as HDF file using this notebook.\n",
    "And then use [alphapeptdeep_hdf_to_tsv.ipynb](alphapeptdeep_hdf_to_tsv.ipynb) to translate hdf into tsv (diann/spectronaut) format."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Prepare the data and settings"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "from alphabase.peptide.fragment import get_charged_frag_types\n",
    "import pandas as pd\n",
    "\n",
    "fasta_list = [\n",
    "    r\"y:\\User\\Feng\\fasta\\uniprot_human_reviewed_20210309.fasta\"\n",
    "]\n",
    "# output spectral library in hdf format\n",
    "hdf_path = r'y:\\User\\Feng\\speclib\\human_swissprot.speclib.hdf'\n",
    "\n",
    "protease=\"trypsin\"\n",
    "nce = 30\n",
    "instrument = 'timsTOF'\n",
    "\n",
    "add_phos=False\n",
    "\n",
    "protease_dict = {\n",
    "    \"trypsin\": \"([KR])\", # this is in fact the \"trypsin/P\"\n",
    "    \"lysc\": \"([K])\",\n",
    "    \"lysn\": \"\\w(?=K)\",\n",
    "}\n",
    "min_pep_len = 7\n",
    "max_pep_len = 35\n",
    "max_miss_cleave = 1\n",
    "max_var_mods = 1\n",
    "min_pep_mz = 400\n",
    "max_pep_mz = 1200\n",
    "precursor_charge_min = 2\n",
    "precursor_charge_max = 4\n",
    "\n",
    "var_mods = []\n",
    "var_mods += ['Oxidation@M']\n",
    "#var_mods += ['Phospho@S','Phospho@T','Phospho@Y']\n",
    "\n",
    "\n",
    "frag_types = get_charged_frag_types(\n",
    "    ['b','y']+\n",
    "    (['b_modloss','y_modloss'] if add_phos else []), \n",
    "    2\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "digest = protease_dict[protease] # Or digest = \"trypsin/P\""
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`protease` and `digest` are designed by regular expression. alphabase provides several built-in enzymes, we don't need to design the regular expression for most of the enzymes. Here are all the built-in enzymes:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'arg-c': 'R',\n",
       " 'asp-n': '\\\\w(?=D)',\n",
       " 'bnps-skatole': 'W',\n",
       " 'caspase 1': '(?<=[FWYL]\\\\w[HAT])D(?=[^PEDQKR])',\n",
       " 'caspase 2': '(?<=DVA)D(?=[^PEDQKR])',\n",
       " 'caspase 3': '(?<=DMQ)D(?=[^PEDQKR])',\n",
       " 'caspase 4': '(?<=LEV)D(?=[^PEDQKR])',\n",
       " 'caspase 5': '(?<=[LW]EH)D',\n",
       " 'caspase 6': '(?<=VE[HI])D(?=[^PEDQKR])',\n",
       " 'caspase 7': '(?<=DEV)D(?=[^PEDQKR])',\n",
       " 'caspase 8': '(?<=[IL]ET)D(?=[^PEDQKR])',\n",
       " 'caspase 9': '(?<=LEH)D',\n",
       " 'caspase 10': '(?<=IEA)D',\n",
       " 'chymotrypsin high specificity': '([FY](?=[^P]))|(W(?=[^MP]))',\n",
       " 'chymotrypsin low specificity': '([FLY](?=[^P]))|(W(?=[^MP]))|(M(?=[^PY]))|(H(?=[^DMPW]))',\n",
       " 'chymotrypsin': '([FLY](?=[^P]))|(W(?=[^MP]))|(M(?=[^PY]))|(H(?=[^DMPW]))',\n",
       " 'clostripain': 'R',\n",
       " 'cnbr': 'M',\n",
       " 'enterokinase': '(?<=[DE]{3})K',\n",
       " 'factor xa': '(?<=[AFGILTVM][DE]G)R',\n",
       " 'formic acid': 'D',\n",
       " 'glutamyl endopeptidase': 'E',\n",
       " 'glu-c': 'E',\n",
       " 'granzyme b': '(?<=IEP)D',\n",
       " 'hydroxylamine': 'N(?=G)',\n",
       " 'iodosobenzoic acid': 'W',\n",
       " 'lys-c': 'K',\n",
       " 'lys-n': '\\\\w(?=K)',\n",
       " 'ntcb': '\\\\w(?=C)',\n",
       " 'pepsin ph1.3': '((?<=[^HKR][^P])[^R](?=[FL][^P]))|((?<=[^HKR][^P])[FL](?=\\\\w[^P]))',\n",
       " 'pepsin ph2.0': '((?<=[^HKR][^P])[^R](?=[FLWY][^P]))|((?<=[^HKR][^P])[FLWY](?=\\\\w[^P]))',\n",
       " 'proline endopeptidase': '(?<=[HKR])P(?=[^P])',\n",
       " 'proteinase k': '[AEFILTVWY]',\n",
       " 'staphylococcal peptidase i': '(?<=[^E])E',\n",
       " 'thermolysin': '[^DE](?=[AFILMV])',\n",
       " 'thrombin': '((?<=G)R(?=G))|((?<=[AFGILTVM][AFGILTVWA]P)R(?=[^DE][^DE]))',\n",
       " 'trypsin_full': '([KR](?=[^P]))|((?<=W)K(?=P))|((?<=M)R(?=P))',\n",
       " 'trypsin_exception': '((?<=[CD])K(?=D))|((?<=C)K(?=[HY]))|((?<=C)R(?=K))|((?<=R)R(?=[HR]))',\n",
       " 'trypsin': '([KR](?=[^P]))',\n",
       " 'trypsin/P': '([KR])',\n",
       " 'non-specific': '()',\n",
       " 'no-cleave': '_'}"
      ]
     },
     "execution_count": null,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from alphabase.protein.fasta import protease_dict\n",
    "protease_dict"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Initialize a `PredictSpecLibFasta` object"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "from peptdeep.protein.fasta import PredictSpecLibFasta\n",
    "from peptdeep.pretrained_models import ModelManager\n",
    "\n",
    "model_mgr = ModelManager(device='gpu')\n",
    "\n",
    "model_mgr.nce = nce\n",
    "model_mgr.instrument = instrument\n",
    "\n",
    "fasta_lib = PredictSpecLibFasta(\n",
    "    model_mgr, \n",
    "    protease=digest,\n",
    "    charged_frag_types=frag_types, \n",
    "    var_mods=var_mods, \n",
    "    fix_mods=['Carbamidomethyl@C'],\n",
    "    max_missed_cleavages=max_miss_cleave,\n",
    "    max_var_mod_num=max_var_mods,\n",
    "    peptide_length_max=max_pep_len,\n",
    "    peptide_length_min=min_pep_len,\n",
    "    precursor_charge_min=precursor_charge_min,\n",
    "    precursor_charge_max=precursor_charge_max,\n",
    "    precursor_mz_min=min_pep_mz,\n",
    "    precursor_mz_max=max_pep_mz,\n",
    "    decoy=None\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Digest"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "fasta_lib.get_peptides_from_fasta_list(fasta_list)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "If we have a sequence DataFrame (`seq_df`) containing peptide sequences in the `sequence` column, we can skip `get_peptides_from_fasta_list`. Just assign `seq_df` to `fasta_lib._precursor_df` and perform all following steps.\n",
    "\n",
    "```\n",
    "fasta_lib._precursor_df = seq_df\n",
    "```"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Append decoy sequences and add modifications"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "fasta_lib.append_decoy_sequence()\n",
    "fasta_lib.add_modifications()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "We will get a protein DataFrame (`protein_df`) after digestion"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>protein_id</th>\n",
       "      <th>full_name</th>\n",
       "      <th>gene_name</th>\n",
       "      <th>description</th>\n",
       "      <th>sequence</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Q9H9K5</td>\n",
       "      <td>sp|Q9H9K5|MER34_HUMAN</td>\n",
       "      <td>ERVMER34-1</td>\n",
       "      <td>sp|Q9H9K5|MER34_HUMAN Endogenous retroviral en...</td>\n",
       "      <td>MGSLSNYALLQLTLTAFLTILVQPQHLLAPVFRTLSILTNQSNCWL...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>P04439</td>\n",
       "      <td>sp|P04439|HLAA_HUMAN</td>\n",
       "      <td>HLA-A</td>\n",
       "      <td>sp|P04439|HLAA_HUMAN HLA class I histocompatib...</td>\n",
       "      <td>MAVMAPRTLLLLLSGALALTQTWAGSHSMRYFFTSVSRPGRGEPRF...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>P01911</td>\n",
       "      <td>sp|P01911|DRB1_HUMAN</td>\n",
       "      <td>HLA-DRB1</td>\n",
       "      <td>sp|P01911|DRB1_HUMAN HLA class II histocompati...</td>\n",
       "      <td>MVCLKLPGGSCMTALTVTLMVLSSPLALSGDTRPRFLWQPKRECHF...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>P01889</td>\n",
       "      <td>sp|P01889|HLAB_HUMAN</td>\n",
       "      <td>HLA-B</td>\n",
       "      <td>sp|P01889|HLAB_HUMAN HLA class I histocompatib...</td>\n",
       "      <td>MLVMAPRTVLLLLSAALALTETWAGSHSMRYFYTSVSRPGRGEPRF...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>P31689</td>\n",
       "      <td>sp|P31689|DNJA1_HUMAN</td>\n",
       "      <td>DNAJA1</td>\n",
       "      <td>sp|P31689|DNJA1_HUMAN DnaJ homolog subfamily A...</td>\n",
       "      <td>MVKETTYYDVLGVKPNATQEELKKAYRKLALKYHPDKNPNEGEKFK...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20391</th>\n",
       "      <td>Q8WVZ7</td>\n",
       "      <td>sp|Q8WVZ7|RN133_HUMAN</td>\n",
       "      <td>RNF133</td>\n",
       "      <td>sp|Q8WVZ7|RN133_HUMAN E3 ubiquitin-protein lig...</td>\n",
       "      <td>MHLLKVGTWRNNTASSWLMKFSVLWLVSQNCCRASVVWMAYMNISF...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20392</th>\n",
       "      <td>P05387</td>\n",
       "      <td>sp|P05387|RLA2_HUMAN</td>\n",
       "      <td>RPLP2</td>\n",
       "      <td>sp|P05387|RLA2_HUMAN 60S acidic ribosomal prot...</td>\n",
       "      <td>MRYVASYLLAALGGNSSPSAKDIKKILDSVGIEADDDRLNKVISEL...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20393</th>\n",
       "      <td>P51991</td>\n",
       "      <td>sp|P51991|ROA3_HUMAN</td>\n",
       "      <td>HNRNPA3</td>\n",
       "      <td>sp|P51991|ROA3_HUMAN Heterogeneous nuclear rib...</td>\n",
       "      <td>MEVKPPPGRPQPDSGRRRRRRGEEGHDPKEPEQLRKLFIGGLSFET...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20394</th>\n",
       "      <td>Q9BZX4</td>\n",
       "      <td>sp|Q9BZX4|ROP1B_HUMAN</td>\n",
       "      <td>ROPN1B</td>\n",
       "      <td>sp|Q9BZX4|ROP1B_HUMAN Ropporin-1B OS=Homo sapi...</td>\n",
       "      <td>MAQTDKPTCIPPELPKMLKEFAKAAIRAQPQDLIQWGADYFEALSR...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20395</th>\n",
       "      <td>P34096</td>\n",
       "      <td>sp|P34096|RNAS4_HUMAN</td>\n",
       "      <td>RNASE4</td>\n",
       "      <td>sp|P34096|RNAS4_HUMAN Ribonuclease 4 OS=Homo s...</td>\n",
       "      <td>MALQRTHSLLLLLLLTLLGLGLVQPSYGQDGMYQRFLRQHVHPEET...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>20396 rows × 5 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "      protein_id              full_name   gene_name  \\\n",
       "0         Q9H9K5  sp|Q9H9K5|MER34_HUMAN  ERVMER34-1   \n",
       "1         P04439   sp|P04439|HLAA_HUMAN       HLA-A   \n",
       "2         P01911   sp|P01911|DRB1_HUMAN    HLA-DRB1   \n",
       "3         P01889   sp|P01889|HLAB_HUMAN       HLA-B   \n",
       "4         P31689  sp|P31689|DNJA1_HUMAN      DNAJA1   \n",
       "...          ...                    ...         ...   \n",
       "20391     Q8WVZ7  sp|Q8WVZ7|RN133_HUMAN      RNF133   \n",
       "20392     P05387   sp|P05387|RLA2_HUMAN       RPLP2   \n",
       "20393     P51991   sp|P51991|ROA3_HUMAN     HNRNPA3   \n",
       "20394     Q9BZX4  sp|Q9BZX4|ROP1B_HUMAN      ROPN1B   \n",
       "20395     P34096  sp|P34096|RNAS4_HUMAN      RNASE4   \n",
       "\n",
       "                                             description  \\\n",
       "0      sp|Q9H9K5|MER34_HUMAN Endogenous retroviral en...   \n",
       "1      sp|P04439|HLAA_HUMAN HLA class I histocompatib...   \n",
       "2      sp|P01911|DRB1_HUMAN HLA class II histocompati...   \n",
       "3      sp|P01889|HLAB_HUMAN HLA class I histocompatib...   \n",
       "4      sp|P31689|DNJA1_HUMAN DnaJ homolog subfamily A...   \n",
       "...                                                  ...   \n",
       "20391  sp|Q8WVZ7|RN133_HUMAN E3 ubiquitin-protein lig...   \n",
       "20392  sp|P05387|RLA2_HUMAN 60S acidic ribosomal prot...   \n",
       "20393  sp|P51991|ROA3_HUMAN Heterogeneous nuclear rib...   \n",
       "20394  sp|Q9BZX4|ROP1B_HUMAN Ropporin-1B OS=Homo sapi...   \n",
       "20395  sp|P34096|RNAS4_HUMAN Ribonuclease 4 OS=Homo s...   \n",
       "\n",
       "                                                sequence  \n",
       "0      MGSLSNYALLQLTLTAFLTILVQPQHLLAPVFRTLSILTNQSNCWL...  \n",
       "1      MAVMAPRTLLLLLSGALALTQTWAGSHSMRYFFTSVSRPGRGEPRF...  \n",
       "2      MVCLKLPGGSCMTALTVTLMVLSSPLALSGDTRPRFLWQPKRECHF...  \n",
       "3      MLVMAPRTVLLLLSAALALTETWAGSHSMRYFYTSVSRPGRGEPRF...  \n",
       "4      MVKETTYYDVLGVKPNATQEELKKAYRKLALKYHPDKNPNEGEKFK...  \n",
       "...                                                  ...  \n",
       "20391  MHLLKVGTWRNNTASSWLMKFSVLWLVSQNCCRASVVWMAYMNISF...  \n",
       "20392  MRYVASYLLAALGGNSSPSAKDIKKILDSVGIEADDDRLNKVISEL...  \n",
       "20393  MEVKPPPGRPQPDSGRRRRRRGEEGHDPKEPEQLRKLFIGGLSFET...  \n",
       "20394  MAQTDKPTCIPPELPKMLKEFAKAAIRAQPQDLIQWGADYFEALSR...  \n",
       "20395  MALQRTHSLLLLLLLTLLGLGLVQPSYGQDGMYQRFLRQHVHPEET...  \n",
       "\n",
       "[20396 rows x 5 columns]"
      ]
     },
     "execution_count": null,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "fasta_lib.protein_df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`precursor_df` contains the main information of peptides."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "fasta_lib.precursor_df['nAA'] = fasta_lib.precursor_df.sequence.str.len()\n",
    "fasta_lib.precursor_df.sort_values('nAA', inplace=True)\n",
    "fasta_lib.precursor_df.reset_index(drop=True, inplace=True)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Check `precursor_df` after adding charge states."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>sequence</th>\n",
       "      <th>protein_idxes</th>\n",
       "      <th>miss_cleavage</th>\n",
       "      <th>is_prot_nterm</th>\n",
       "      <th>is_prot_cterm</th>\n",
       "      <th>mods</th>\n",
       "      <th>mod_sites</th>\n",
       "      <th>nAA</th>\n",
       "      <th>charge</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>RIHTGQR</td>\n",
       "      <td>19786</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>RIHTGQR</td>\n",
       "      <td>19786</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>7</td>\n",
       "      <td>3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>RIHTGQR</td>\n",
       "      <td>19786</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>7</td>\n",
       "      <td>4</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>LVDSAYK</td>\n",
       "      <td>12819</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>LVDSAYK</td>\n",
       "      <td>12819</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>7</td>\n",
       "      <td>3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5617819</th>\n",
       "      <td>KNQAADDDDEDLNDTNYDEFNGYAGSLFSSGPYEK</td>\n",
       "      <td>2299</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>35</td>\n",
       "      <td>3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5617820</th>\n",
       "      <td>KNQAADDDDEDLNDTNYDEFNGYAGSLFSSGPYEK</td>\n",
       "      <td>2299</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5617821</th>\n",
       "      <td>AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK</td>\n",
       "      <td>10080</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Carbamidomethyl@C</td>\n",
       "      <td>24</td>\n",
       "      <td>35</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5617822</th>\n",
       "      <td>AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK</td>\n",
       "      <td>10080</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Carbamidomethyl@C</td>\n",
       "      <td>24</td>\n",
       "      <td>35</td>\n",
       "      <td>3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5617823</th>\n",
       "      <td>AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK</td>\n",
       "      <td>10080</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Carbamidomethyl@C</td>\n",
       "      <td>24</td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>5617824 rows × 9 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                    sequence protein_idxes  miss_cleavage  \\\n",
       "0                                    RIHTGQR         19786              1   \n",
       "1                                    RIHTGQR         19786              1   \n",
       "2                                    RIHTGQR         19786              1   \n",
       "3                                    LVDSAYK         12819              0   \n",
       "4                                    LVDSAYK         12819              0   \n",
       "...                                      ...           ...            ...   \n",
       "5617819  KNQAADDDDEDLNDTNYDEFNGYAGSLFSSGPYEK          2299              1   \n",
       "5617820  KNQAADDDDEDLNDTNYDEFNGYAGSLFSSGPYEK          2299              1   \n",
       "5617821  AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK         10080              1   \n",
       "5617822  AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK         10080              1   \n",
       "5617823  AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK         10080              1   \n",
       "\n",
       "         is_prot_nterm  is_prot_cterm               mods mod_sites  nAA  \\\n",
       "0                False          False                                 7   \n",
       "1                False          False                                 7   \n",
       "2                False          False                                 7   \n",
       "3                False          False                                 7   \n",
       "4                False          False                                 7   \n",
       "...                ...            ...                ...       ...  ...   \n",
       "5617819          False          False                                35   \n",
       "5617820          False          False                                35   \n",
       "5617821          False          False  Carbamidomethyl@C        24   35   \n",
       "5617822          False          False  Carbamidomethyl@C        24   35   \n",
       "5617823          False          False  Carbamidomethyl@C        24   35   \n",
       "\n",
       "         charge  \n",
       "0             2  \n",
       "1             3  \n",
       "2             4  \n",
       "3             2  \n",
       "4             3  \n",
       "...         ...  \n",
       "5617819       3  \n",
       "5617820       4  \n",
       "5617821       2  \n",
       "5617822       3  \n",
       "5617823       4  \n",
       "\n",
       "[5617824 rows x 9 columns]"
      ]
     },
     "execution_count": null,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "fasta_lib.add_charge()\n",
    "fasta_lib.precursor_df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`PredictSpecLibFasta.calc_precursor_mz` will append a `precursor_mz` column to the `precursor_df`.\n",
    "\n",
    "`PredictSpecLibFasta.hash_precursor_df` will append `mod_seq_hash` and `mod_seq_charge_hash` columns to the `precursor_df`. `mod_seq_hash` column contains the unique signatures (np.int64) for corresponding peptides ( `sequence`,`mods` and `mod_sites`). `mod_seq_charge_hash` column contains the unique signatures (np.int64) for corresponding precursors ( `sequence`,`mods`, `mod_sites` and `charge`). "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>sequence</th>\n",
       "      <th>protein_idxes</th>\n",
       "      <th>miss_cleavage</th>\n",
       "      <th>is_prot_nterm</th>\n",
       "      <th>is_prot_cterm</th>\n",
       "      <th>mods</th>\n",
       "      <th>mod_sites</th>\n",
       "      <th>nAA</th>\n",
       "      <th>charge</th>\n",
       "      <th>mod_seq_hash</th>\n",
       "      <th>mod_seq_charge_hash</th>\n",
       "      <th>precursor_mz</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>RIHTGQR</td>\n",
       "      <td>19786</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>471662500970219628</td>\n",
       "      <td>471662500970219630</td>\n",
       "      <td>434.249018</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>PMPMPVR</td>\n",
       "      <td>9448</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>-5301076820607700090</td>\n",
       "      <td>-5301076820607700088</td>\n",
       "      <td>414.216952</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>PMPMPVR</td>\n",
       "      <td>9448</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Oxidation@M</td>\n",
       "      <td>4</td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>6057464136741449831</td>\n",
       "      <td>6057464136741449833</td>\n",
       "      <td>422.214409</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>PMPMPVR</td>\n",
       "      <td>9448</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Oxidation@M</td>\n",
       "      <td>2</td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>-6431722582867031756</td>\n",
       "      <td>-6431722582867031754</td>\n",
       "      <td>422.214409</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>QEWFCTR</td>\n",
       "      <td>12819</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Carbamidomethyl@C</td>\n",
       "      <td>5</td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>-7409729050206298801</td>\n",
       "      <td>-7409729050206298799</td>\n",
       "      <td>513.726727</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654202</th>\n",
       "      <td>NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR</td>\n",
       "      <td>978</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "      <td>7192344052213098704</td>\n",
       "      <td>7192344052213098708</td>\n",
       "      <td>866.228888</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654203</th>\n",
       "      <td>NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR</td>\n",
       "      <td>978</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Oxidation@M</td>\n",
       "      <td>17</td>\n",
       "      <td>35</td>\n",
       "      <td>3</td>\n",
       "      <td>-1485306056792248111</td>\n",
       "      <td>-1485306056792248108</td>\n",
       "      <td>1159.967730</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654204</th>\n",
       "      <td>NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR</td>\n",
       "      <td>978</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Oxidation@M</td>\n",
       "      <td>17</td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "      <td>-1485306056792248111</td>\n",
       "      <td>-1485306056792248107</td>\n",
       "      <td>870.227616</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654205</th>\n",
       "      <td>KNQAADDDDEDLNDTNYDEFNGYAGSLFSSGPYEK</td>\n",
       "      <td>2299</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "      <td>5191231126132273751</td>\n",
       "      <td>5191231126132273755</td>\n",
       "      <td>976.910866</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654206</th>\n",
       "      <td>AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK</td>\n",
       "      <td>10080</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Carbamidomethyl@C</td>\n",
       "      <td>24</td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "      <td>-7707559913944666938</td>\n",
       "      <td>-7707559913944666934</td>\n",
       "      <td>958.434460</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>3654207 rows × 12 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                    sequence protein_idxes  miss_cleavage  \\\n",
       "0                                    RIHTGQR         19786              1   \n",
       "1                                    PMPMPVR          9448              0   \n",
       "2                                    PMPMPVR          9448              0   \n",
       "3                                    PMPMPVR          9448              0   \n",
       "4                                    QEWFCTR         12819              0   \n",
       "...                                      ...           ...            ...   \n",
       "3654202  NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR           978              1   \n",
       "3654203  NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR           978              1   \n",
       "3654204  NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR           978              1   \n",
       "3654205  KNQAADDDDEDLNDTNYDEFNGYAGSLFSSGPYEK          2299              1   \n",
       "3654206  AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK         10080              1   \n",
       "\n",
       "         is_prot_nterm  is_prot_cterm               mods mod_sites  nAA  \\\n",
       "0                False          False                                 7   \n",
       "1                False          False                                 7   \n",
       "2                False          False        Oxidation@M         4    7   \n",
       "3                False          False        Oxidation@M         2    7   \n",
       "4                False          False  Carbamidomethyl@C         5    7   \n",
       "...                ...            ...                ...       ...  ...   \n",
       "3654202          False          False                                35   \n",
       "3654203          False          False        Oxidation@M        17   35   \n",
       "3654204          False          False        Oxidation@M        17   35   \n",
       "3654205          False          False                                35   \n",
       "3654206          False          False  Carbamidomethyl@C        24   35   \n",
       "\n",
       "         charge         mod_seq_hash  mod_seq_charge_hash  precursor_mz  \n",
       "0             2   471662500970219628   471662500970219630    434.249018  \n",
       "1             2 -5301076820607700090 -5301076820607700088    414.216952  \n",
       "2             2  6057464136741449831  6057464136741449833    422.214409  \n",
       "3             2 -6431722582867031756 -6431722582867031754    422.214409  \n",
       "4             2 -7409729050206298801 -7409729050206298799    513.726727  \n",
       "...         ...                  ...                  ...           ...  \n",
       "3654202       4  7192344052213098704  7192344052213098708    866.228888  \n",
       "3654203       3 -1485306056792248111 -1485306056792248108   1159.967730  \n",
       "3654204       4 -1485306056792248111 -1485306056792248107    870.227616  \n",
       "3654205       4  5191231126132273751  5191231126132273755    976.910866  \n",
       "3654206       4 -7707559913944666938 -7707559913944666934    958.434460  \n",
       "\n",
       "[3654207 rows x 12 columns]"
      ]
     },
     "execution_count": null,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "fasta_lib.hash_precursor_df()\n",
    "fasta_lib.calc_precursor_mz()\n",
    "fasta_lib.precursor_df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Predict MS2/RT/CCS(mobility)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "2022-08-03 14:14:41> Predicting RT ...\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "100%|██████████| 29/29 [01:30<00:00,  3.11s/it]"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "2022-08-03 14:16:12> Predicting mobility ...\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\n",
      "100%|██████████| 29/29 [01:31<00:00,  3.14s/it]\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "2022-08-03 14:18:10> Predicting MS2 ...\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "100%|██████████| 29/29 [04:53<00:00, 10.13s/it]\n"
     ]
    }
   ],
   "source": [
    "fasta_lib.precursor_df['instrument'] = model_mgr.instrument\n",
    "fasta_lib.precursor_df['nce'] = model_mgr.nce\n",
    "res = fasta_lib.model_manager.predict_all(\n",
    "    fasta_lib.precursor_df,\n",
    "    predict_items=['rt','mobility','ms2'],\n",
    "    frag_types = frag_types,\n",
    ")\n",
    "fasta_lib.set_precursor_and_fragment(\n",
    "    **res\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Check memory usage for the library"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "3.65M precursors with 241.62M fragments used 6.9472 GB memory\n"
     ]
    }
   ],
   "source": [
    "import os, psutil\n",
    "import numpy as np\n",
    "process = psutil.Process(os.getpid())\n",
    "print(f'{len(fasta_lib.precursor_df)*1e-6:.2f}M precursors with {np.prod(fasta_lib.fragment_mz_df.values.shape, dtype=float)*(1e-6):.2f}M fragments used {process.memory_info().rss/1024**3:.4f} GB memory')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "The predicted fragment intensities"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>b_z1</th>\n",
       "      <th>b_z2</th>\n",
       "      <th>y_z1</th>\n",
       "      <th>y_z2</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0.000000</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.611678</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>0.056326</td>\n",
       "      <td>0.0</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>0.437313</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.729849</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>0.219575</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.292181</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>0.346306</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.033992</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60404997</th>\n",
       "      <td>0.000000</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.322072</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60404998</th>\n",
       "      <td>0.000000</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.206371</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60404999</th>\n",
       "      <td>0.000000</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.033532</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60405000</th>\n",
       "      <td>0.000000</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.040032</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60405001</th>\n",
       "      <td>0.000000</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.000000</td>\n",
       "      <td>0.0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>60405002 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "              b_z1  b_z2      y_z1  y_z2\n",
       "0         0.000000   0.0  0.611678   0.0\n",
       "1         0.056326   0.0  1.000000   0.0\n",
       "2         0.437313   0.0  0.729849   0.0\n",
       "3         0.219575   0.0  0.292181   0.0\n",
       "4         0.346306   0.0  0.033992   0.0\n",
       "...            ...   ...       ...   ...\n",
       "60404997  0.000000   0.0  0.322072   0.0\n",
       "60404998  0.000000   0.0  0.206371   0.0\n",
       "60404999  0.000000   0.0  0.033532   0.0\n",
       "60405000  0.000000   0.0  0.040032   0.0\n",
       "60405001  0.000000   0.0  0.000000   0.0\n",
       "\n",
       "[60405002 rows x 4 columns]"
      ]
     },
     "execution_count": null,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "fasta_lib.fragment_intensity_df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "The calculated fragment m/z values"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>b_z1</th>\n",
       "      <th>b_z2</th>\n",
       "      <th>y_z1</th>\n",
       "      <th>y_z2</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>157.108387</td>\n",
       "      <td>79.057832</td>\n",
       "      <td>711.389648</td>\n",
       "      <td>356.198462</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>270.192451</td>\n",
       "      <td>135.599864</td>\n",
       "      <td>598.305584</td>\n",
       "      <td>299.656430</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>407.251363</td>\n",
       "      <td>204.129320</td>\n",
       "      <td>461.246672</td>\n",
       "      <td>231.126974</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>508.299042</td>\n",
       "      <td>254.653159</td>\n",
       "      <td>360.198993</td>\n",
       "      <td>180.603135</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>565.320506</td>\n",
       "      <td>283.163891</td>\n",
       "      <td>303.177530</td>\n",
       "      <td>152.092403</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60404997</th>\n",
       "      <td>3285.398701</td>\n",
       "      <td>1643.202989</td>\n",
       "      <td>546.324588</td>\n",
       "      <td>273.665932</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60404998</th>\n",
       "      <td>3386.446379</td>\n",
       "      <td>1693.726828</td>\n",
       "      <td>445.276909</td>\n",
       "      <td>223.142093</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60404999</th>\n",
       "      <td>3443.467843</td>\n",
       "      <td>1722.237560</td>\n",
       "      <td>388.255446</td>\n",
       "      <td>194.631361</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60405000</th>\n",
       "      <td>3571.526420</td>\n",
       "      <td>1786.266848</td>\n",
       "      <td>260.196868</td>\n",
       "      <td>130.602072</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>60405001</th>\n",
       "      <td>3684.610484</td>\n",
       "      <td>1842.808880</td>\n",
       "      <td>147.112804</td>\n",
       "      <td>74.060040</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>60405002 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                 b_z1         b_z2        y_z1        y_z2\n",
       "0          157.108387    79.057832  711.389648  356.198462\n",
       "1          270.192451   135.599864  598.305584  299.656430\n",
       "2          407.251363   204.129320  461.246672  231.126974\n",
       "3          508.299042   254.653159  360.198993  180.603135\n",
       "4          565.320506   283.163891  303.177530  152.092403\n",
       "...               ...          ...         ...         ...\n",
       "60404997  3285.398701  1643.202989  546.324588  273.665932\n",
       "60404998  3386.446379  1693.726828  445.276909  223.142093\n",
       "60404999  3443.467843  1722.237560  388.255446  194.631361\n",
       "60405000  3571.526420  1786.266848  260.196868  130.602072\n",
       "60405001  3684.610484  1842.808880  147.112804   74.060040\n",
       "\n",
       "[60405002 rows x 4 columns]"
      ]
     },
     "execution_count": null,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "fasta_lib.fragment_mz_df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "`PredictSpecLibFasta.rt_to_irt_pred` will translate the predicted RT values to iRT values (`rt_pred` to `irt_pred`). This is useful for DiaNN and Spectronaut search."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>sequence</th>\n",
       "      <th>protein_idxes</th>\n",
       "      <th>miss_cleavage</th>\n",
       "      <th>is_prot_nterm</th>\n",
       "      <th>is_prot_cterm</th>\n",
       "      <th>mods</th>\n",
       "      <th>mod_sites</th>\n",
       "      <th>nAA</th>\n",
       "      <th>charge</th>\n",
       "      <th>mod_seq_hash</th>\n",
       "      <th>...</th>\n",
       "      <th>precursor_mz</th>\n",
       "      <th>instrument</th>\n",
       "      <th>nce</th>\n",
       "      <th>rt_pred</th>\n",
       "      <th>rt_norm_pred</th>\n",
       "      <th>ccs_pred</th>\n",
       "      <th>mobility_pred</th>\n",
       "      <th>frag_stop_idx</th>\n",
       "      <th>frag_start_idx</th>\n",
       "      <th>irt_pred</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>RIHTGQR</td>\n",
       "      <td>19786</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>471662500970219628</td>\n",
       "      <td>...</td>\n",
       "      <td>434.249018</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.115377</td>\n",
       "      <td>0.115377</td>\n",
       "      <td>315.529022</td>\n",
       "      <td>0.775438</td>\n",
       "      <td>6</td>\n",
       "      <td>0</td>\n",
       "      <td>-37.187631</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>PMPMPVR</td>\n",
       "      <td>9448</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>-5301076820607700090</td>\n",
       "      <td>...</td>\n",
       "      <td>414.216952</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.208976</td>\n",
       "      <td>0.208976</td>\n",
       "      <td>304.965790</td>\n",
       "      <td>0.748912</td>\n",
       "      <td>12</td>\n",
       "      <td>6</td>\n",
       "      <td>-16.331142</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>PMPMPVR</td>\n",
       "      <td>9448</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Oxidation@M</td>\n",
       "      <td>4</td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>6057464136741449831</td>\n",
       "      <td>...</td>\n",
       "      <td>422.214409</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.158058</td>\n",
       "      <td>0.158058</td>\n",
       "      <td>304.080536</td>\n",
       "      <td>0.746970</td>\n",
       "      <td>18</td>\n",
       "      <td>12</td>\n",
       "      <td>-27.677099</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>PMPMPVR</td>\n",
       "      <td>9448</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Oxidation@M</td>\n",
       "      <td>2</td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>-6431722582867031756</td>\n",
       "      <td>...</td>\n",
       "      <td>422.214409</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.157143</td>\n",
       "      <td>0.157143</td>\n",
       "      <td>305.825348</td>\n",
       "      <td>0.751256</td>\n",
       "      <td>24</td>\n",
       "      <td>18</td>\n",
       "      <td>-27.881022</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>QEWFCTR</td>\n",
       "      <td>12819</td>\n",
       "      <td>0</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Carbamidomethyl@C</td>\n",
       "      <td>5</td>\n",
       "      <td>7</td>\n",
       "      <td>2</td>\n",
       "      <td>-7409729050206298801</td>\n",
       "      <td>...</td>\n",
       "      <td>513.726727</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.423747</td>\n",
       "      <td>0.423747</td>\n",
       "      <td>330.547638</td>\n",
       "      <td>0.814317</td>\n",
       "      <td>30</td>\n",
       "      <td>24</td>\n",
       "      <td>31.526291</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654202</th>\n",
       "      <td>NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR</td>\n",
       "      <td>978</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "      <td>7192344052213098704</td>\n",
       "      <td>...</td>\n",
       "      <td>866.228888</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.831350</td>\n",
       "      <td>0.831350</td>\n",
       "      <td>891.748413</td>\n",
       "      <td>1.108824</td>\n",
       "      <td>60404866</td>\n",
       "      <td>60404832</td>\n",
       "      <td>122.352159</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654203</th>\n",
       "      <td>NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR</td>\n",
       "      <td>978</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Oxidation@M</td>\n",
       "      <td>17</td>\n",
       "      <td>35</td>\n",
       "      <td>3</td>\n",
       "      <td>-1485306056792248111</td>\n",
       "      <td>...</td>\n",
       "      <td>1159.967730</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.826977</td>\n",
       "      <td>0.826977</td>\n",
       "      <td>785.478699</td>\n",
       "      <td>1.302269</td>\n",
       "      <td>60404900</td>\n",
       "      <td>60404866</td>\n",
       "      <td>121.377815</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654204</th>\n",
       "      <td>NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR</td>\n",
       "      <td>978</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Oxidation@M</td>\n",
       "      <td>17</td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "      <td>-1485306056792248111</td>\n",
       "      <td>...</td>\n",
       "      <td>870.227616</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.826977</td>\n",
       "      <td>0.826977</td>\n",
       "      <td>892.459656</td>\n",
       "      <td>1.109729</td>\n",
       "      <td>60404934</td>\n",
       "      <td>60404900</td>\n",
       "      <td>121.377815</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654205</th>\n",
       "      <td>KNQAADDDDEDLNDTNYDEFNGYAGSLFSSGPYEK</td>\n",
       "      <td>2299</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "      <td>5191231126132273751</td>\n",
       "      <td>...</td>\n",
       "      <td>976.910866</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.670129</td>\n",
       "      <td>0.670129</td>\n",
       "      <td>791.322266</td>\n",
       "      <td>0.984398</td>\n",
       "      <td>60404968</td>\n",
       "      <td>60404934</td>\n",
       "      <td>86.427514</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3654206</th>\n",
       "      <td>AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK</td>\n",
       "      <td>10080</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>False</td>\n",
       "      <td>Carbamidomethyl@C</td>\n",
       "      <td>24</td>\n",
       "      <td>35</td>\n",
       "      <td>4</td>\n",
       "      <td>-7707559913944666938</td>\n",
       "      <td>...</td>\n",
       "      <td>958.434460</td>\n",
       "      <td>timsTOF</td>\n",
       "      <td>30</td>\n",
       "      <td>0.725150</td>\n",
       "      <td>0.725150</td>\n",
       "      <td>823.819214</td>\n",
       "      <td>1.024754</td>\n",
       "      <td>60405002</td>\n",
       "      <td>60404968</td>\n",
       "      <td>98.687774</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>3654207 rows × 21 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                    sequence protein_idxes  miss_cleavage  \\\n",
       "0                                    RIHTGQR         19786              1   \n",
       "1                                    PMPMPVR          9448              0   \n",
       "2                                    PMPMPVR          9448              0   \n",
       "3                                    PMPMPVR          9448              0   \n",
       "4                                    QEWFCTR         12819              0   \n",
       "...                                      ...           ...            ...   \n",
       "3654202  NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR           978              1   \n",
       "3654203  NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR           978              1   \n",
       "3654204  NLTYVRGSVGPATSTLMFVAGVVGNGLALGILSAR           978              1   \n",
       "3654205  KNQAADDDDEDLNDTNYDEFNGYAGSLFSSGPYEK          2299              1   \n",
       "3654206  AYDADSGFNGKVLFTISDGNTDSCFNIDMETGQLK         10080              1   \n",
       "\n",
       "         is_prot_nterm  is_prot_cterm               mods mod_sites  nAA  \\\n",
       "0                False          False                                 7   \n",
       "1                False          False                                 7   \n",
       "2                False          False        Oxidation@M         4    7   \n",
       "3                False          False        Oxidation@M         2    7   \n",
       "4                False          False  Carbamidomethyl@C         5    7   \n",
       "...                ...            ...                ...       ...  ...   \n",
       "3654202          False          False                                35   \n",
       "3654203          False          False        Oxidation@M        17   35   \n",
       "3654204          False          False        Oxidation@M        17   35   \n",
       "3654205          False          False                                35   \n",
       "3654206          False          False  Carbamidomethyl@C        24   35   \n",
       "\n",
       "         charge         mod_seq_hash  ...  precursor_mz  instrument nce  \\\n",
       "0             2   471662500970219628  ...    434.249018     timsTOF  30   \n",
       "1             2 -5301076820607700090  ...    414.216952     timsTOF  30   \n",
       "2             2  6057464136741449831  ...    422.214409     timsTOF  30   \n",
       "3             2 -6431722582867031756  ...    422.214409     timsTOF  30   \n",
       "4             2 -7409729050206298801  ...    513.726727     timsTOF  30   \n",
       "...         ...                  ...  ...           ...         ...  ..   \n",
       "3654202       4  7192344052213098704  ...    866.228888     timsTOF  30   \n",
       "3654203       3 -1485306056792248111  ...   1159.967730     timsTOF  30   \n",
       "3654204       4 -1485306056792248111  ...    870.227616     timsTOF  30   \n",
       "3654205       4  5191231126132273751  ...    976.910866     timsTOF  30   \n",
       "3654206       4 -7707559913944666938  ...    958.434460     timsTOF  30   \n",
       "\n",
       "          rt_pred  rt_norm_pred    ccs_pred  mobility_pred  frag_stop_idx  \\\n",
       "0        0.115377      0.115377  315.529022       0.775438             6   \n",
       "1        0.208976      0.208976  304.965790       0.748912            12   \n",
       "2        0.158058      0.158058  304.080536       0.746970            18   \n",
       "3        0.157143      0.157143  305.825348       0.751256            24   \n",
       "4        0.423747      0.423747  330.547638       0.814317            30   \n",
       "...           ...           ...         ...            ...           ...   \n",
       "3654202  0.831350      0.831350  891.748413       1.108824      60404866   \n",
       "3654203  0.826977      0.826977  785.478699       1.302269      60404900   \n",
       "3654204  0.826977      0.826977  892.459656       1.109729      60404934   \n",
       "3654205  0.670129      0.670129  791.322266       0.984398      60404968   \n",
       "3654206  0.725150      0.725150  823.819214       1.024754      60405002   \n",
       "\n",
       "         frag_start_idx    irt_pred  \n",
       "0                     0  -37.187631  \n",
       "1                     6  -16.331142  \n",
       "2                    12  -27.677099  \n",
       "3                    18  -27.881022  \n",
       "4                    24   31.526291  \n",
       "...                 ...         ...  \n",
       "3654202        60404832  122.352159  \n",
       "3654203        60404866  121.377815  \n",
       "3654204        60404900  121.377815  \n",
       "3654205        60404934   86.427514  \n",
       "3654206        60404968   98.687774  \n",
       "\n",
       "[3654207 rows x 21 columns]"
      ]
     },
     "execution_count": null,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "fasta_lib.translate_rt_to_irt_pred()\n",
    "fasta_lib.precursor_df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Save the library into a HDF5 (.hdf) file"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'y:\\\\User\\\\Feng\\\\speclib\\\\human_swissprot.speclib.hdf'"
      ]
     },
     "execution_count": null,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "fasta_lib.save_hdf(hdf_path)\n",
    "hdf_path"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Now use [alphapeptdeep_hdf_to_tsv.ipynb](alphapeptdeep_hdf_to_tsv.ipynb) to translate hdf into TSV (diann/spectronaut) format. Translation is quite slow because writing TSV file is slow for large libraries."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3.8.3 ('base')",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "name": "python",
   "version": "3.8.3"
  },
  "vscode": {
   "interpreter": {
    "hash": "8a3b27e141e49c996c9b863f8707e97aabd49c4a7e8445b9b783b34e4a21a9b2"
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}