FASTA searches a protein or DNA sequence data bank 36.3.4 Apr, 2011 Please cite: W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448 Query: pF1KB8900, 233 aa 1>>>pF1KB8900 233 - 233 aa - 233 aa Library: human.CCDS.faa 18511270 residues in 32554 sequences Statistics: Expectation_n fit: rho(ln(x))= 7.7083+/-0.000673; mu= 6.5856+/- 0.041 mean_var=179.6905+/-36.087, 0's: 0 Z-trim(117.8): 54 B-trim: 189 in 1/51 Lambda= 0.095678 statistics sampled from 18589 (18643) to 18589 sequences Algorithm: FASTA (3.7 Nov 2010) [optimized] Parameters: BL50 matrix (15:-5), open/ext: -10/-2 ktup: 2, E-join: 1 (0.854), E-opt: 0.2 (0.573), width: 16 Scan time: 2.670 The best scores are: opt bits E(32554) CCDS32549.1 SOX15 gene_id:6665|Hs108|chr17 ( 233) 1644 237.6 5.3e-63 CCDS14669.1 SOX3 gene_id:6658|Hs108|chrX ( 446) 508 81.0 1.4e-15 CCDS3239.1 SOX2 gene_id:6657|Hs108|chr3 ( 317) 499 79.7 2.5e-15 CCDS9523.1 SOX1 gene_id:6656|Hs108|chr13 ( 391) 485 77.8 1.1e-14 CCDS3094.1 SOX14 gene_id:8403|Hs108|chr3 ( 240) 474 76.1 2.3e-14 CCDS9473.1 SOX21 gene_id:11166|Hs108|chr13 ( 276) 471 75.7 3.3e-14 CCDS13552.1 SOX18 gene_id:54345|Hs108|chr20 ( 384) 430 70.2 2.1e-12 CCDS6159.1 SOX17 gene_id:64321|Hs108|chr8 ( 414) 430 70.2 2.3e-12 CCDS12995.1 SOX12 gene_id:6666|Hs108|chr20 ( 315) 424 69.3 3.3e-12 CCDS4547.1 SOX4 gene_id:6659|Hs108|chr6 ( 474) 426 69.7 3.7e-12 CCDS10428.1 SOX8 gene_id:30812|Hs108|chr16 ( 446) 413 67.9 1.2e-11 CCDS1654.1 SOX11 gene_id:6664|Hs108|chr2 ( 441) 412 67.8 1.3e-11 CCDS13964.1 SOX10 gene_id:6663|Hs108|chr22 ( 466) 408 67.2 2e-11 CCDS11689.1 SOX9 gene_id:6662|Hs108|chr17 ( 509) 408 67.3 2.2e-11 >>CCDS32549.1 SOX15 gene_id:6665|Hs108|chr17 (233 aa) initn: 1644 init1: 1644 opt: 1644 Z-score: 1244.5 bits: 237.6 E(32554): 5.3e-63 Smith-Waterman score: 1644; 100.0% identity (100.0% similar) in 233 aa overlap (1-233:1-233) 10 20 30 40 50 60 pF1KB8 MALPGSSQDQAWSLEPPAATAAASSSSGPQEREGAGSPAAPGTLPLEKVKRPMNAFMVWS :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: CCDS32 MALPGSSQDQAWSLEPPAATAAASSSSGPQEREGAGSPAAPGTLPLEKVKRPMNAFMVWS 10 20 30 40 50 60 70 80 90 100 110 120 pF1KB8 SAQRRQMAQQNPKMHNSEISKRLGAQWKLLDEDEKRPFVEEAKRLRARHLRDYPDYKYRP :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: CCDS32 SAQRRQMAQQNPKMHNSEISKRLGAQWKLLDEDEKRPFVEEAKRLRARHLRDYPDYKYRP 70 80 90 100 110 120 130 140 150 160 170 180 pF1KB8 RRKAKSSGAGPSRCGQGRGNLASGGPLWGPGYATTQPSRGFGYRPPSYSTAYLPGSYGSS :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: CCDS32 RRKAKSSGAGPSRCGQGRGNLASGGPLWGPGYATTQPSRGFGYRPPSYSTAYLPGSYGSS 130 140 150 160 170 180 190 200 210 220 230 pF1KB8 HCKLEAPSPCSLPQSDPRLQGELLPTYTHYLPPGSPTPYNPPLAGAPMPLTHL ::::::::::::::::::::::::::::::::::::::::::::::::::::: CCDS32 HCKLEAPSPCSLPQSDPRLQGELLPTYTHYLPPGSPTPYNPPLAGAPMPLTHL 190 200 210 220 230 >>CCDS14669.1 SOX3 gene_id:6658|Hs108|chrX (446 aa) initn: 520 init1: 442 opt: 508 Z-score: 393.3 bits: 81.0 E(32554): 1.4e-15 Smith-Waterman score: 508; 41.4% identity (64.0% similar) in 239 aa overlap (4-228:87-321) 10 20 pF1KB8 MALPGSSQDQAWSLEPPAATAAASSSS----GP : .. :: . ::: ..:..:: : CCDS14 APGAPSPPATLAHLLPAPAMYSLLETELKNPVGTPTQAAGTGGPAAPGGAGKSSANAAGG 60 70 80 90 100 110 30 40 50 60 70 80 pF1KB8 QEREGAGSPAAPGT---LPLEKVKRPMNAFMVWSSAQRRQMAQQNPKMHNSEISKRLGAQ . :..: .: : ..:::::::::::: .:::.:: .:::::::::::::::. CCDS14 ANSGGGSSGGASGGGGGTDQDRVKRPMNAFMVWSRGQRRKMALENPKMHNSEISKRLGAD 120 130 140 150 160 170 90 100 110 120 130 140 pF1KB8 WKLLDEDEKRPFVEEAKRLRARHLRDYPDYKYRPRRKAKS-----SGAGPSRCGQGRGNL :::: . :::::..::::::: :...:::::::::::.:. . . :: : CCDS14 WKLLTDAEKRPFIDEAKRLRAVHMKEYPDYKYRPRRKTKTLLKKDKYSLPSGL-LPPGAA 180 190 200 210 220 230 150 160 170 180 190 pF1KB8 ASGGPLWGPGYATTQPSRGFGYRPPSYS--TAYLPGSYGSSHCKLEAPSPCSLPQSDPRL :... . . :...: : : : .:. ... :.:. . .: .: :. :.: CCDS14 AAAAAAAAAAAAASSPV-GVGQRLDTYTHVNGWANGAYSLVQEQLGYAQPPSM--SSPPP 240 250 260 270 280 290 200 210 220 230 pF1KB8 QGELLPTYTHYLPPGSPTPYNPPLAGAPMPLTHL : : . . . . .:. :: : . : CCDS14 PPALPPMHRYDMAGLQYSPMMPPGAQSYMNVAAAAAAASGYGGMAPSATAAAAAAYGQQP 300 310 320 330 340 350 >>CCDS3239.1 SOX2 gene_id:6657|Hs108|chr3 (317 aa) initn: 477 init1: 458 opt: 499 Z-score: 388.6 bits: 79.7 E(32554): 2.5e-15 Smith-Waterman score: 499; 43.9% identity (64.5% similar) in 214 aa overlap (28-227:13-221) 10 20 30 40 50 pF1KB8 MALPGSSQDQAWSLEPPAATAAASSSSGPQEREGAG----SPAAPG----TLPLEKVKRP :::. :.: . :: : . : ..:::: CCDS32 MYNMMETELKPPGPQQTSGGGGGNSTAAAAGGNQKNSP-DRVKRP 10 20 30 40 60 70 80 90 100 110 pF1KB8 MNAFMVWSSAQRRQMAQQNPKMHNSEISKRLGAQWKLLDEDEKRPFVEEAKRLRARHLRD :::::::: .:::.:::.:::::::::::::::.::::.: :::::..::::::: :... CCDS32 MNAFMVWSRGQRRKMAQENPKMHNSEISKRLGAEWKLLSETEKRPFIDEAKRLRALHMKE 50 60 70 80 90 100 120 130 140 150 160 pF1KB8 YPDYKYRPRRKAKSSGAGPSRCGQGRGNLASGGPLWGPGYATTQP-SRGFGYRPPSYS-- .::::::::::.:. . : : :: :: . : .. . : . : ::. CCDS32 HPDYKYRPRRKTKTLMKKDKYTLPG-GLLAPGGNSMASGVGVGAGLGAGVNQRMDSYAHM 110 120 130 140 150 160 170 180 190 200 210 220 pF1KB8 TAYLPGSYGSSHCKLEAPSPCSLPQSDPRLQGELLPTYTH---YLPPGSPTPYNPPLAGA ... :::. . .: :. : . . ... : . . : .: : . . :. CCDS32 NGWSNGSYSMMQDQLGYPQH---PGLNAHGAAQMQPMHRYDVSALQYNSMTSSQTYMNGS 170 180 190 200 210 220 230 pF1KB8 PMPLTHL : CCDS32 PTYSMSYSQQGTPGMALGSMGSVVKSEASSSPPVVTSSSHSRAPCQAGDLRDMISMYLPG 230 240 250 260 270 280 >>CCDS9523.1 SOX1 gene_id:6656|Hs108|chr13 (391 aa) initn: 476 init1: 446 opt: 485 Z-score: 376.9 bits: 77.8 E(32554): 1.1e-14 Smith-Waterman score: 495; 39.8% identity (59.8% similar) in 246 aa overlap (14-228:10-246) 10 20 30 40 50 pF1KB8 MALPGSSQDQAWSLEPPAATAAASSSSGPQEREGAGSPAAPG------TLPLEKVKRPMN :. :... : .. ::: :.:. .. : ..:::::: CCDS95 MYSMMMETDLHSPGGAQAPTNLSGPAGAGGGGGGGGGGGGGGGAKANQDRVKRPMN 10 20 30 40 50 60 70 80 90 100 110 pF1KB8 AFMVWSSAQRRQMAQQNPKMHNSEISKRLGAQWKLLDEDEKRPFVEEAKRLRARHLRDYP :::::: .:::.:::.:::::::::::::::.::...: :::::..::::::: :....: CCDS95 AFMVWSRGQRRKMAQENPKMHNSEISKRLGAEWKVMSEAEKRPFIDEAKRLRALHMKEHP 60 70 80 90 100 110 120 130 140 150 pF1KB8 DYKYRPRRKAKS---------------SGAGPSRC------GQGRGNLASGGPLWGPGYA :::::::::.:. .::: . : : : : : : .:: : CCDS95 DYKYRPRRKTKTLLKKDKYSLAGGLLAAGAGGGGAAVAMGVGVGVGAAAVGQRLESPGGA 120 130 140 150 160 170 160 170 180 190 200 210 pF1KB8 TTQPSRGFGY-RPPSYSTAYLPGSYGSSHCKLEAPSPCSLPQSDPRLQGELLPTYTHYLP . : :: . ..... ::: ... . .: .. : : ..: CCDS95 A-----GGGYAHVNGWANGAYPGSVAAAAAAAAMMQEAQLAYGQHPGAGGAHP-HAH--- 180 190 200 210 220 220 230 pF1KB8 PGSPTPYNP---PLAGAPMPLTHL :. : :..: : :: CCDS95 PAHPHPHHPHAHPHNPQPMHRYDMGALQYSPISNSQGYMSASPSGYGGLPYGAAAAAAAA 230 240 250 260 270 280 >>CCDS3094.1 SOX14 gene_id:8403|Hs108|chr3 (240 aa) initn: 465 init1: 445 opt: 474 Z-score: 371.5 bits: 76.1 E(32554): 2.3e-14 Smith-Waterman score: 474; 48.1% identity (71.2% similar) in 156 aa overlap (45-192:4-159) 20 30 40 50 60 70 pF1KB8 EPPAATAAASSSSGPQEREGAGSPAAPGTLPLEKVKRPMNAFMVWSSAQRRQMAQQNPKM : ...::::::::::: .:::.:::.:::: CCDS30 MSKPSDHIKRPMNAFMVWSRGQRRKMAQENPKM 10 20 30 80 90 100 110 120 pF1KB8 HNSEISKRLGAQWKLLDEDEKRPFVEEAKRLRARHLRDYPDYKYRPRRKAKS-----SGA :::::::::::.::::.: ::::...:::::::.:....:::::::::: :. . CCDS30 HNSEISKRLGAEWKLLSEAEKRPYIDEAKRLRAQHMKEHPDYKYRPRRKPKNLLKKDRYV 40 50 60 70 80 90 130 140 150 160 170 180 pF1KB8 GP-SRCGQGRGNLASGGPLWGPGYATTQPSRGFGYRPPSYSTAYL--PGSYGSSHCKLEA : :. :.: :. . . : .. .. ::. . : :....:: . . CCDS30 FPLPYLGDTDPLKAAGLPVGASDGLLSAPEKARAFLPPASAPYSLLDPAQFSSSAIQKMG 100 110 120 130 140 150 190 200 210 220 230 pF1KB8 PSPCSLPQSDPRLQGELLPTYTHYLPPGSPTPYNPPLAGAPMPLTHL : .: CCDS30 EVPHTLATGALPYASTLGYQNGAFGSLSCPSQHTHTHPSPTNPGYVVPCNCTAWSASTLQ 160 170 180 190 200 210 >>CCDS9473.1 SOX21 gene_id:11166|Hs108|chr13 (276 aa) initn: 476 init1: 458 opt: 471 Z-score: 368.5 bits: 75.7 E(32554): 3.3e-14 Smith-Waterman score: 474; 43.6% identity (62.7% similar) in 204 aa overlap (45-226:4-202) 20 30 40 50 60 70 pF1KB8 EPPAATAAASSSSGPQEREGAGSPAAPGTLPLEKVKRPMNAFMVWSSAQRRQMAQQNPKM :...:::::::::::: ::::.:::.:::: CCDS94 MSKPVDHVKRPMNAFMVWSRAQRRKMAQENPKM 10 20 30 80 90 100 110 120 pF1KB8 HNSEISKRLGAQWKLLDEDEKRPFVEEAKRLRARHLRDYPDYKYRPRRKAKS-------- :::::::::::.:::: :.:::::..::::::: :....:::::::::: :. CCDS94 HNSEISKRLGAEWKLLTESEKRPFIDEAKRLRAMHMKEHPDYKYRPRRKPKTLLKKDKFA 40 50 60 70 80 90 130 140 150 160 170 pF1KB8 ----SGAG-------PS-RCGQGRGNLASGGPLWGPGYATTQPSRGFGYRPPSYSTAYLP : : :. . : : :.:: . : ..: .. . . . ...: CCDS94 FPVPYGLGGVADAEHPALKAGAGLHAGAGGGLV--PESLLANPEKAAAAAAAAAARVFFP 100 110 120 130 140 150 180 190 200 210 220 230 pF1KB8 GSYGSSHCKLEAPSPCSLPQSDPRLQGEL--LPTYTHYLPPGSPTPYNPPLAGAPMPLTH : ... : . : : : : ... . . . :: .: : : ::: CCDS94 QSAAAAAAAAAAAAAGS-PYSLLDLGSKMAEISSSSSGLPYASSLGY--PTAGAGAFHGA 160 170 180 190 200 pF1KB8 L CCDS94 AAAAAAAAAAAGGHTHSHPSPGNPGYMIPCNCSAWPSPGLQPPLAYILLPGMGKPQLDPY 210 220 230 240 250 260 >>CCDS13552.1 SOX18 gene_id:54345|Hs108|chr20 (384 aa) initn: 544 init1: 403 opt: 430 Z-score: 336.0 bits: 70.2 E(32554): 2.1e-12 Smith-Waterman score: 431; 37.7% identity (55.2% similar) in 239 aa overlap (2-231:37-255) 10 20 30 pF1KB8 MALPGSSQDQAWSLEPPAATAAASSSSGPQE : :.. : ::. . : : CCDS13 GYGAQDDPPARRDCAWAPGHGAAADTRGLAAGPAALAAPAAPASPPSPQRSPPRSPEPG- 10 20 30 40 50 60 40 50 60 70 80 pF1KB8 REGAGSPAAPG---TLPLEKVKRPMNAFMVWSSAQRRQMAQQNPKMHNSEISKRLGAQWK : : :::. : . ...:::::::::.. .:...::::: .::. .:: :: :: CCDS13 RYGL-SPAGRGERQAADESRIRRPMNAFMVWAKDERKRLAQQNPDLHNAVLSKMLGKAWK 70 80 90 100 110 120 90 100 110 120 130 140 pF1KB8 LLDEDEKRPFVEEAKRLRARHLRDYPDYKYRPRRKAKSSGAGPSRCGQGRGNLASGGPLW :. :::::::::.:::..::::.:.:::::::: .. : . : .:: : CCDS13 ELNAAEKRPFVEEAERLRVQHLRDHPNYKYRPRRKKQARKARRLEPGLLLPGLAPPQPPP 130 140 150 160 170 180 150 160 170 180 190 200 pF1KB8 GPGYATTQPSRGFGYRPPSYSTAYLPGSYGSSHCKLEAPSPCSLPQSDPRLQGELLPTYT : :.. .:.: :: :. : :.: : :.: : : . CCDS13 EPFPAASGSARAFRELPP----------LGAEFDGLGLPTPERSP-----LDG-LEPGEA 190 200 210 220 210 220 230 pF1KB8 HYLPP-GSPT-----PYNPPLAGAPMPLTHL ..:: ..: :. : :: :. CCDS13 AFFPPPAAPEDCALRPFRAPY--APTELSRDPGGCYGAPLAEALRTAPPAAPLAGLYYGT 230 240 250 260 270 280 >>CCDS6159.1 SOX17 gene_id:64321|Hs108|chr8 (414 aa) initn: 515 init1: 378 opt: 430 Z-score: 335.6 bits: 70.2 E(32554): 2.3e-12 Smith-Waterman score: 433; 38.1% identity (59.3% similar) in 231 aa overlap (17-225:29-249) 10 20 30 40 pF1KB8 MALPGSSQDQAWSLEPPAATAAASSSSGPQEREG-----AGSPA-APG : : . : : .. .: .:.:: : : CCDS61 MSSPDAGYASDDQSQTQSALPAVMAGLGPCPWAESLSPIGDMKVKGEAPANSGAPAGAAG 10 20 30 40 50 60 50 60 70 80 90 100 pF1KB8 TLPLE-KVKRPMNAFMVWSSAQRRQMAQQNPKMHNSEISKRLGAQWKLLDEDEKRPFVEE : ...:::::::::.. .:...::::: .::.:.:: :: .:: : :::::::: CCDS61 RAKGESRIRRPMNAFMVWAKDERKRLAQQNPDLHNAELSKMLGKSWKALTLAEKRPFVEE 70 80 90 100 110 120 110 120 130 140 150 pF1KB8 AKRLRARHLRDYPDYKYRPRRKAKSSG----AGPSRCGQGRGNLASGGPLWG----PGYA :.:::..:..:.:.:::::::. . . : : .. . :. :: : : . CCDS61 AERLRVQHMQDHPNYKYRPRRRKQVKRLKRVEGGFLHGLAEPQAAALGPEGGRVAMDGLG 130 140 150 160 170 180 160 170 180 190 200 pF1KB8 TTQPSRGFGYRPPSYSTAYLPGSYGSSH--CK-LEAPS----PCSLPQSDPRLQGELLPT : .:: :: :: .:. . :. : :: : :...: :.: . : CCDS61 LQFPEQGFPAGPP-----LLPPHMGGHYRDCQSLGAPPLDGYPLPTPDTSP-LDG-VDPD 190 200 210 220 230 210 220 230 pF1KB8 YTHYLPPGSPTPYNPPLAGAPMPLTHL . . ..: : . : :: CCDS61 PAFF---AAPMPGDCPAAGTYSYAQVSDYAGPPEPPAGPMHPRLGPEPAGPSIPGLLAPP 240 250 260 270 280 290 >>CCDS12995.1 SOX12 gene_id:6666|Hs108|chr20 (315 aa) initn: 450 init1: 392 opt: 424 Z-score: 332.7 bits: 69.3 E(32554): 3.3e-12 Smith-Waterman score: 425; 50.7% identity (68.8% similar) in 144 aa overlap (28-153:21-161) 10 20 30 40 50 60 pF1KB8 MALPGSSQDQAWSLEPPAATAAASSSSGPQEREGAGSPAAPGTLPLEKVKRPMNAFMVWS :: : ::: :. : : ..::::::::::: CCDS12 MVQQRGARAKRDGGPPPPGPGPAE-EGAREPGWCKT-PSGHIKRPMNAFMVWS 10 20 30 40 50 70 80 90 100 110 120 pF1KB8 SAQRRQMAQQNPKMHNSEISKRLGAQWKLLDEDEKRPFVEEAKRLRARHLRDYPDYKYRP . .::.. .: : :::.::::::: .:.::...:: :::.::.::: .:. ::::::::: CCDS12 QHERRKIMDQWPDMHNAEISKRLGRRWQLLQDSEKIPFVREAERLRLKHMADYPDYKYRP 60 70 80 90 100 110 130 140 150 160 pF1KB8 RRKAKSSGA------------------GPSRCGQGRGNLASGGPLWGPGYATTQPSRGFG :.:.:.. : ::. :.: : :.:::: : . : CCDS12 RKKSKGAPAKARPRPPGGSGGGSRLKPGPQLPGRG-GRRAAGGPLGGGAAAPEDDDEDDD 120 130 140 150 160 170 170 180 190 200 210 220 pF1KB8 YRPPSYSTAYLPGSYGSSHCKLEAPSPCSLPQSDPRLQGELLPTYTHYLPPGSPTPYNPP CCDS12 EELLEVRLVETPGRELWRMVPAGRAARGQAERAQGPSGEGAAAAAAASPTPSEDEEPEEE 180 190 200 210 220 230 >>CCDS4547.1 SOX4 gene_id:6659|Hs108|chr6 (474 aa) initn: 446 init1: 396 opt: 426 Z-score: 331.8 bits: 69.7 E(32554): 3.7e-12 Smith-Waterman score: 433; 43.0% identity (67.4% similar) in 172 aa overlap (3-162:15-182) 10 20 30 40 pF1KB8 MALPGSSQDQAWSLEPPAATAAASSSSGPQEREGAGSPAAPG--TLPL : : :.:.. .:: :.: . : : :. :. : CCDS45 MVQQTNNAENTEALLAGESSDSGAGLE---LGIASSPTPGSTASTG-GKADDPSWCKTPS 10 20 30 40 50 50 60 70 80 90 100 pF1KB8 EKVKRPMNAFMVWSSAQRRQMAQQNPKMHNSEISKRLGAQWKLLDEDEKRPFVEEAKRLR ..:::::::::::. .::.. .:.: :::.::::::: .:::: ...: ::..::.::: CCDS45 GHIKRPMNAFMVWSQIERRKIMEQSPDMHNAEISKRLGKRWKLLKDSDKIPFIREAERLR 60 70 80 90 100 110 110 120 130 140 150 pF1KB8 ARHLRDYPDYKYRPRRKAKSSGAG----------PSRCGQGRGNLASGGPLWGPGYATTQ .:. ::::::::::.:.::..:. :.. :. :. ..:: : : .... CCDS45 LKHMADYPDYKYRPRKKVKSGNANSSSSAAASSKPGEKGDKVGGSGGGGHGGGGGGGSSN 120 130 140 150 160 170 160 170 180 190 200 210 pF1KB8 PSRGFGYRPPSYSTAYLPGSYGSSHCKLEAPSPCSLPQSDPRLQGELLPTYTHYLPPGSP . : : CCDS45 AGGGGGGASGGGANSKPAQKKSCGSKVAGGAGGGVSKPHAKLILAGGGGGGKAAAAAAAS 180 190 200 210 220 230 233 residues in 1 query sequences 18511270 residues in 32554 library sequences Tcomplib [36.3.4 Apr, 2011] (8 proc) start: Mon Nov 7 02:57:45 2016 done: Mon Nov 7 02:57:45 2016 Total Scan time: 2.670 Total Display time: 0.010 Function used was FASTA [36.3.4 Apr, 2011]