pigbreeder / codememo Goto Github PK

View Code? Open in Web Editor NEW

1.0 1.0 0.0 2.47 MB

HTML 2.54% JavaScript 1.99% Python 76.43% Shell 13.69% CMake 2.98% C++ 2.34% C 0.03%

codememo's People

Contributors

Stargazers

codememo's Issues

pytorch 坑

在jupyter中调试，dataloader 的num_worker=0 不然
unpickling error on dataloading

使用argparse，args, unknown = parser.parse_known_args()不然
ipykernel_launcher.py: error: unrecognized arguments

快速判断能不能用，不行就换cuda版本
import torch
device = torch.device("cuda")
torch.rand(10).to(device)

大数据逐行读取
https://blog.csdn.net/u011550545/article/details/87842760

飞奔的物种读后感

https://www.jianshu.com/p/5b7cc5a6e176

创新分为解决问题的新思路和开拓新领域
扭曲，打破和融合。扭曲：变换一种属性（小麻花/薯片）；融合：主体/属性的结合（椰奶咖啡/枣夹核桃）；打破：一定要这样么（方便面/自热火锅）
时间空间连续性，主体群体间的关联特性与共性
改造传统：
扩展可能性：
原点发散：
容忍失败，不确定性中创造：

现在不管做什么都要求创新，但创新永远是手段而不是目的，为了突出创新性而不顾当前情况，不实事求是，这是哗众取宠东施效颦。创新的三原则之中，打破的基础是吃透前人的经验，否则你只是修改之前方案的皮毛而不是本质；扭曲的基础是你既要知道当前面临的冲击，又要清楚要借鉴的模型和当下的情况中有那些是决不能更改的；而最不可或缺的是融合，不是用新的取代旧的，而是借鉴其他领域的找到路的逻辑，并不是照搬走过的路，最终目的是以更贴近物理本源的视角看待及处理问题，减少认识干扰，从第一性原理出发找到解决方案。

创造性的思维不止是书中提到的改造，扩展，就近与冒险这四个维度，还要想清楚自己能做什么，想达到什么目标。书中研究的是成功的创新，却没有讨论为何有远比成功案例多的多的失败的创新，我想主要原因是失败的创新没有实事求是。书中第四部分讲如何培养创新型组织，需要的不止是容忍失败，扩展边界，增加可选项，鼓励想象力，增加工作的意义，更重要的是要避免浮在表面的“伪创新”，要脚踏实地，扎扎实实。

pincong

受教育程度越高的人越可能發現支共的行徑和其宣傳的矛盾，只有發現了矛盾才談得上覺醒。整體上，覺醒機率和受教育程度正相關，而受教育程度和挨鐵拳多少負相關。
鐵拳挨得多，耽誤了學業，知識儲備不夠，看不穿矛盾的本質是什麼，沒有覺醒就反了，這是反社會。
覺醒之後才可能去尋求解決方案，解決方案不一而足：一部分人倒回了支持支共；一部分人喪失信心走上反社會；一部分人想對支共取而代之，也可以說是採取和支共類似的手段來反支共；剩下的才是不斷自省不斷吐狼奶堅持**化路線的人。
覺醒者包含：覺醒的支共支持者，覺醒的反社會者，另一種形式的支共，**化路線者。
反賊包含：沒有覺醒的反社會者，覺醒的反社會者，另一種形式的支共，**化路線者。
雖然表面上都是覺醒者，或者都是反賊，但未必是同路人。以上劃分也並非絕對，路遙知馬力，日久見人心，人是可能轉化的。

datafuntalk-read

数据标签与指标在金融行业的应用

何为指标，何为标签，两者有何区别？
从内容上看：指标通常描述客观事实,抽象的概念；标签往往存在人为划分,定位到具体的实体,核心的目的是划分不同的实体群组。

指标分类

指标分为原子指标、派生指标和衍生指标三类。不需要叠加任何纬度的（客户数）；原子指标通过叠加一个或多个维度而得到的二级指标，如客户数叠加了渠道的维度就变成了派生指标（手机银行客户数、长尾客群交易量）；原子和派生相互加工，通常是除（留存率）

标签分类

标签可分为事实标签、规则标签和模型标签。事实标签来自于底层的原始数据，客观事实（性别/是否有车）；基于事实的统计结果，结合一些人为判断而生成的，比如按照年龄的不同区间就可以将用户划分为青年、中年和老年客户。模型标签则更加抽象、更加主观，是通过事实标签和规则标签抽象而来的群体特征，比如月光族、白领、消费达人。

使用场景

指标通常拆解使用。比如一个较大的指标：客户数，可以拆解到不同维度上，并且加以限定词，比如手机银行客户数、七日内客户数的增量等，主要是用来监测和评价业务的效果。
标签通常归纳使用，用来刻画某一个群体的特征，可以是客户也可以是产品，其核心是分类，给予不同类别不同的经营策略。

new word discover

https://blog.csdn.net/qq_43391414/article/details/112912107 # tfidfvector practical

import math
from tqdm.auto import tqdm
from sklearn.feature_extraction.text import TfidfTransformer,TfidfVectorizer
# https://spaces.ac.cn/archives/3913
#【中文分词系列】 2. 基于切分的新词发现
# 1. split get new words span
# 2. tfidf get important word
# 3. search this from specific items from bad cate
# 4. add these word to augment data

def find_ngrams(input_list, n):
    return zip(*[input_list[i:] for i in range(n)])

def token(x):
    x = x.translate({ord(c): " " for c in "!@$%^&*()[]{};:,./<>?\|`~-=+"})
    return filter(lambda xx:len(xx)>3,x.split(' '))

def get_tfidf_top_features(documents,index=None,n_top=10):
    tfidf_vectorizer = TfidfVectorizer(max_df=0.9, min_df=5,  tokenizer=token)
    tfidf = tfidf_vectorizer.fit_transform(documents)
    if index:
        importance = np.argsort(np.asarray(tfidf[index].sum(axis=0)).ravel())[::-1]
    else:
        importance = np.argsort(np.asarray(tfidf.sum(axis=0)).ravel())[::-1]
    tfidf_feature_names = np.array(tfidf_vectorizer.get_feature_names())
    return tfidf_feature_names[importance[:n_top]]

class Find_Words:
    def __init__(self, min_count=10, min_pmi=0, tokened=True):
        self.min_count = min_count
        self.min_pmi = min_pmi
        self.tokened = tokened
        self.chars, self.pairs = defaultdict(int), defaultdict(int) #如果键不存在，那么就用int函数
                                                                  #初始化一个值，int()的默认结果为0
        self.total = 0.
        self.corpus = []
        self.catchr = '_#_'
    def text_filter(self, texts): #预切断句子，以免得到太多无意义（不是中文、英文、数字）的字符串
        for a in tqdm(texts):
        	if self.tokened:
            	yield a.split()
            for t in re.split(u'[^\u4e00-\u9fa50-9a-zA-Z]+', a): #这个正则表达式匹配的是任意非中文、
                                                              #非英文、非数字，因此它的意思就是用任
                                                              #意非中文、非英文、非数字的字符断开句子
                if t:
                    yield t
    def count(self, texts): #计数函数，计算单字出现频数、相邻两字出现的频数
        for text in self.text_filter(texts):
            self.chars[text[0]] += 1
            for i in range(len(text)-1):
                self.chars[text[i+1]] += 1
                self.pairs[' '.join(text[i:i+2])] += 1
                self.total += 1
        self.chars = {i:j for i,j in self.chars.items() if j >= self.min_count} #最少频数过滤
        self.pairs = {i:j for i,j in self.pairs.items() if j >= self.min_count} #最少频数过滤
        self.strong_segments = set()
        for ii,j in self.pairs.items(): #根据互信息找出比较“密切”的邻字
            i = ii.split(' ')
            _ = math.log(self.total*j/(self.chars[i[0]]*self.chars[i[1]]))
            if _ >= self.min_pmi:
                self.strong_segments.add(ii)
    def find_words(self, texts): #根据前述结果来找词语
        self.words = defaultdict(int)
        for text in self.text_filter(texts):
            s = text[0]
            newt = []
            for i in range(len(text)-1):
                if ' '.join(text[i:i+2]) in self.strong_segments: #如果比较“密切”则不断开
                    s += self.catchr + text[i+1]
                else:
                    newt.append(s)
                    self.words[s] += 1 #否则断开，前述片段作为一个词来统计
                    s = text[i+1]
            self.words[s] += 1 #最后一个“词”
            newt.append(s)
            self.corpus.append(' '.join(newt))
        self.words = {i:j for i,j in self.words.items() if j >= self.min_count} #最后再次根据频数过滤

fw = Find_Words(10, 1)
fw.count(df.product_name)
fw.find_words(df.product_name)
len(fw.words)
ind = bdf[bdf.annotated_path=='Kitchen & Dining | Cookware | Griddle & Grills'].index.tolist()
get_tfidf_top_features(fw.corpus,ind,20)

link链接

让别人愿意跟你聊？有后续？
内容和他工作的结合点，概念上移

激发对方分享欲望
一路走来

不要直接给出回应，把场景等各个因素都问清楚再给出一个具体数字/结论。

展示出自己真多一面

除了引导框架，我们还要为活动设定一个目标：认识三个人、学习三个新想法，分享三点知识。即所谓的活动“三”部曲。

https://book.douban.com/review/14571930/
永远不要带着‘有所得’的意图与他人建立关系，而应以倾听、学习和提供帮助作为人际交往的目的。喜欢那些喜欢我们的人

当年我正是因为坚持公益化运营读书会，才慢慢找到了自己的人生使命。你曾经的利他之举，或许在未来某一日为你带来意想不到的惊喜。

聚集、请求、行动”三步法。这些方法都比较简单易行。比如，你可以直接提出请求，去询问对方“我能提供怎样的帮助”；再比如，当新认识一个朋友时，你可以思考“我能把这个人介绍给谁”。无论选择线上方式还是线下方式，你只须听话照做，即可推开一扇连接他人的大门。总之，你永远不知道处理好一段人际关系会带来什么样的惊喜。

那些与你的价值观和愿景相似，并且能给予你挑战、暴露你盲点的朋友就是你的“星群”。

借他人之力，弥补自身之不足，远比花大量时间战胜自己的弱点更有价值

当你因使命找到自己的星群，以使命鼓舞人心，你将走得更快、更远。

连接或者建立人际关系时，我们考虑的内容不应该是“我将从这个人那里得到什么”，而应该考虑“我能学到什么，我可以发现什么”，或者“我可以把这个人介绍给谁”。
换句话说，我们需要考虑的是，如何提升自己的价值和提供怎样的帮助。书中告诉我们：专注倾听，与优秀的人深度交流，充满好奇；

产出力所能及的有价值的输出】

提供3个选项，让对方答应你的请求

怎么才能让对方答应你的请求呢？作者建议你以引导性的方法让对方同意你的请求，并且为对方提供多个机会表达同意。作者建议为每个要求提供至少三种不同的选择。比如你向对方提出筹款的请求，选项一可以是捐款，选项二可以是将这个筹款的消息转发给其他三个可能有能力提供资助的人，选项三可以是发一条筹款信息在领英或其他社交平台上。为什么要提供至少三种不同选项呢？因为只有唯一的选项，人们可能会因为办不到而消失不见。

聚集

应记住，永远不要带着‘有所得’的意图与他人建立关系，而应以倾听、学习和提供帮助作为人际交往的目的。”
倾听，学习和帮助别人为目的的交往（过于麻烦不懂回报的人排除去）
多参与志愿者或本地事业，找到志同道合的人
主动邀请别人，成为主动举办聚会的人
找到聚会的目的和话题
定时与刚建立关系的人沟通
请求
去询问对方“我能提供怎样的帮助”；再比如，当新认识一个朋友时，你可以思考“我能把这个人介绍给谁”。可推开一扇连接他人的大门。
分享自己的知识和经验，记得表达谢意并告知对方进展
行动
暴露自己的软肋
了解对方生活/工作中的亮点

singapore 医药

基因创业公司
https://www.carminetherapeutics.com/

医药公司
https://dpseng.com.sg/pharmaceutical-industry/top-10-pharmaceutical-medical-technology-companies-singapore/

医疗集团
https://www.rafflesmedicalgroup.com/careers-at-raffles/
https://www.merckgroup.com/en/careers/jobs/261004.html

器械公司
List of 100 Pharmaceutical & Med Device Companies in Singapore
https://dpseng.com.sg/definitive-singapore-pharma-job-website-directory/
https://www.lusha.com/company-search/medical-devices/94/singapore/43/ #79家
https://www.ampliz.com/resources/pharmaceutical-companies-in-singapore/
https://ichgcp.net/pharma-list/country/singapore

实验室
https://www.dbs.nus.edu.sg/jobs/jobs-in-dbs/

从总账到总监

仰观天象，俯察地理，中参人和
坐北朝南风水宝地；白虎抬头，家宅不宁
左青龙右白虎上朱雀下玄武
气乘风则散，遇水则止

前有名堂后有靠山
北风穿堂家破人亡
景山，南北狭窄东西修长

床朝南北，棺向东西

管理费用是期间费用（period cost）
料/工/费是沉入产品成本（product cost）

流程负责人(process owner)知识掌握者(knowledge owner)错误问题。让做对的事和把事做对冲突。这个案例中，人事部事流程，财务部是知识。
lean operation，精益经营，让财务知识迁移嵌入人事部合同起草流程中。
数据分析不仅仅是展示数字，而是通过数字发现问题，敏锐抓住异常，进而改革从源头解决问题。
原点思维：直接将起点和结果放在一起思考是否有道理。

提升关键：能力/关系/可视度。
可视度就是在大领导跟前刷存在感的必要性。

不想看从数字解释到数字的分析，要的是与业务相关的内容解释。

哪些是不用操心的一次性分析，哪些是趋势性信号需要管理层警惕，每一条都应包含丰富的经营信息与决策依据。

和光同尘，方敏下马威，越级汇报。得到好处的受益者当面告诉受害者，引起过强的反感。
不顾大局的做法你怎么看？这件事我自有判断，今天不谈。先说说你的事情

影响圈和关注圈。容易有什么问题？

相信是动态思维，怀疑是静态思维。
De-learn，

记录

决策缺乏科学性、连贯性和纠错机制
对于审核任务来说，不同阶段的审核任务，对precision和recall有不同要求，比如在支小宝事前审核，更关注precision，因为不想打扰用户。而在事后的巡检阶段，更关注recall。
越做护城河越深；

判断标志是什么？
连续的问答

概念-周边-金字塔-砸烂

就业率能否复苏其实不看这些头部产业的。大部分人的受教育水平和劳动技能水平注定只能从事非高新技术行业的第三产业，而这些行业极大地依赖于相同阶层的居民的消费能力。现在的就业不景气无非就是曾经默默扛起消费市场的普通大众没钱了，就算**搓出来1nm芯片，只要他们依旧不想放权（消费权也是权）给居民，通过松绑医疗住房养老来释放消费能力，那么未来的就业前景依然是不容乐观的。

面对一个复杂问题时，他的路径依赖是先集权，然后把复杂问题简单化，然后一刀切。这个就和建国初期动员群众除四害，把麻雀赶紧杀绝之后，粮食因为虫害而绝收一样，是愚蠢，是无知，是罪恶。只要还在台上，**的官僚系统就很难摆脱这个路径。上面喜欢什么，下面必然投其所好。那就很难复杂问题抽丝剥茧，耐心，妥协，调研，权衡。这些都做不到。

**自古以来的传统三位逻辑是：
论亲疏不论道理
论态度不论事实
论动机不论是非

**自古以来的传统三位真理是：
权力即是真理
金钱即是真理
祖宗即是真理

unicode

https://blog.csdn.net/jlulxg/article/details/84650683
https://www.cnblogs.com/csguo/p/7401874.html
remove char

import re
title = '✦Hush Puppies Mens Shoes Payne Wing Tip Black Leather✭'

title = re.sub(r'[^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a\u0E00-\u0E7F\uAB00-\uAB5F]',' ',title)
title = re.sub(r'\s+', ' ',title).strip()
title

力抠

clip

https://www.cnblogs.com/chester-cs/p/17478159.html
https://github.com/openai/CLIP/blob/main/clip/model.py
https://github.com/moein-shariatnia/OpenAI-CLIP/blob/master/CLIP.py


    def forward(self, batch):
        # Getting Image and Text Features
        image_features = self.image_encoder(batch["image"])
        text_features = self.text_encoder(
            input_ids=batch["input_ids"], attention_mask=batch["attention_mask"]
        )
        # Getting Image and Text Embeddings (with same dimension)
        image_embeddings = self.image_projection(image_features)
        text_embeddings = self.text_projection(text_features)

        # Calculating the Loss
        logits = (text_embeddings @ image_embeddings.T) / self.temperature
        images_similarity = image_embeddings @ image_embeddings.T
        texts_similarity = text_embeddings @ text_embeddings.T
        targets = F.softmax(
            (images_similarity + texts_similarity) / 2 * self.temperature, dim=-1
        )
        texts_loss = cross_entropy(logits, targets, reduction='none')
        images_loss = cross_entropy(logits.T, targets.T, reduction='none')
        loss =  (images_loss + texts_loss) / 2.0 # shape: (batch_size)
        return loss.mean()


def cross_entropy(preds, targets, reduction='none'):
    log_softmax = nn.LogSoftmax(dim=-1)
    loss = (-targets * log_softmax(preds)).sum(1)
    if reduction == "none":
        return loss
    elif reduction == "mean":
        return loss.mean()


image_embeds = vision_outputs[1]
image_embeds = self.visual_projection(image_embeds)

text_embeds = text_outputs[1]
text_embeds = self.text_projection(text_embeds)

# normalized features
image_embeds = image_embeds / image_embeds.norm(p=2, dim=-1, keepdim=True)
text_embeds = text_embeds / text_embeds.norm(p=2, dim=-1, keepdim=True)

# cosine similarity as logits
logit_scale = self.logit_scale.exp()
logits_per_text = torch.matmul(text_embeds, image_embeds.t()) * logit_scale
logits_per_image = logits_per_text.t()

loss = None
if return_loss:
    loss = clip_loss(logits_per_text)

剑指offer 经典

https://zhuanlan.zhihu.com/p/453204032

二分

https://leetcode.cn/problems/find-first-and-last-position-of-element-in-sorted-array
在排序数组中查找元素的第一个和最后一个位置 left_bound right_bound
https://leetcode.cn/problems/search-a-2d-matrix-ii/solutions/ #搜索二维矩阵

def searchMatrix(self, matrix: List[List[int]], target: int) -> bool:
        for row in matrix:
            idx = bisect.bisect_left(row, target)
            if idx < len(row) and row[idx] == target:
                return True
        return False

 def searchMatrix(self, matrix: List[List[int]], target: int) -> bool:
        i, j = len(matrix) - 1, 0
        while i >= 0 and j < len(matrix[0]):
            if matrix[i][j] > target: i -= 1
            elif matrix[i][j] < target: j += 1
            else: return True
        return False

https://leetcode.cn/problems/search-in-rotated-sorted-array/ # 搜索旋转排序数组(关键点在和开头结尾的比一下)

def search(self, nums, target):
      """
      :type nums: List[int]
      :type target: int
      :rtype: int
      """
      if len(nums) <= 0:
          return -1
      l,r = 0,len(nums)-1
      while l <= r:
          mid = (l + r) // 2
          if nums[mid] == target:
              return mid
          elif nums[r] == target:
              return r
          elif nums[l] == target:
              return l
          elif nums[mid] > nums[l]:
              if nums[l]< target < nums[mid]:
                  r = mid - 1
              else:
                  l = mid + 1
          else:
              if nums[mid] < target <= nums[r]:
                  l = mid + 1
              else:
                  r = mid - 1
      return l if nums[l] == target else -1

-欧拉距离

# coding
https://juejin.cn/s/pytorch%20multiheadattention%E4%BD%BF%E7%94%A8
import torch
import torch.nn as nn

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        
        self.num_heads = num_heads
        self.d_k = d_model // num_heads
        
        self.q_linear = nn.Linear(d_model, d_model)
        self.v_linear = nn.Linear(d_model, d_model)
        self.k_linear = nn.Linear(d_model, d_model)
        self.out = nn.Linear(d_model, d_model)

    def forward(self, q, k, v, mask=None):
        bs = q.size(0)

        # 全连接层变换
        k = self.k_linear(k).view(bs, -1, self.num_heads, self.d_k)
        q = self.q_linear(q).view(bs, -1, self.num_heads, self.d_k)
        v = self.v_linear(v).view(bs, -1, self.num_heads, self.d_k)

        # 转置操作
        k = k.transpose(1,2)
        q = q.transpose(1,2)
        v = v.transpose(1,2)

        # 计算Scaled Dot-Product Attention
        scores = torch.matmul(q, k.transpose(-2, -1)) /  math.sqrt(self.d_k)
        if mask is not None:
            mask = mask.unsqueeze(1)
            scores = scores.masked_fill(mask == 0, -1e9)
        scores = nn.functional.softmax(scores, dim=-1)
        output = torch.matmul(scores, v)

        # 拼接操作
        output = output.transpose(1,2).contiguous().view(bs, -1, self.num_heads*self.d_k)

        # 全连接层变换
        output = self.out(output)
        return output

set new macbook

触发角hot corners
keyboard
- ♼ to emoji
- caps lock to switch abc/pinyin(hold long time then ABC)
Trackpad
- switch on all
- Accessibility->point control->three finger drag
Finder
- view path bar
- new folder shows
Terminal
- Theme 👍 Grass
- zsh
- copy bashrc
software
- sublime
- jupyterlab
- chrome

不错的包

pandas_profiling

典故

陈新甲议和
背景：政治正确是空气的味道，是做任何决策的底层判断原则
陈：没有背锅
崇祯：不愿意担负，思维困境
影响：没有人再敢议和，彻底断送选项

excel

Excel导出筛选的内容
url
excel筛选出数据后，复制粘贴到其他地方，要确保只有筛选的数据复制过去，关键是要使用“选定可见单元格”这个功能。

快捷键
保存excel筛选后的结果的方法如下：
打开excel文件，设置好筛选条件，得到要保存的结果；
按下Ctrl+A 全选；
按下Alt+;（分号）快捷键，只选择可视单元格；
按下Ctrl+C快捷键复制单元格；
光标定位到要保存数据的工作表或单元格；
按下Ctrl+V粘贴。

LLM

行业角度看LLM

通向AGI之路：大型语言模型（LLM）技术精要

大模型有哪些

https://zhuanlan.zhihu.com/p/611403556

模型结构

为什么现在的LLM都是Decoder only的架构？

lowrank角度

如何训练

Ladder Side-Tuning：预训练模型的“过墙梯”
LoRA: Low-Rank Adaptation of Large Language Models 简读
https://huggingface.co/blog/peft
https://github.com/tloen/alpaca-lora
如何评价 LLaMA 模型泄露？ - 苏洋的回答 - 知乎
https://www.zhihu.com/question/587479829/answer/2925378135

如何部署推理

量化

Pytorch Lightning 完全攻略
https://github.com/Shivanandroy/simpleT5

资源需要多少

参考

t5 finetune

https://www.kaggle.com/code/evilmage93/t5-finetuning-on-sentiment-classification
https://discuss.huggingface.co/t/how-to-fine-tune-t5-base-model/8478
https://shivanandroy.com/fine-tune-t5-transformer-with-pytorch/
https://www.kaggle.com/code/nulldata/training-t5-models-made-easy-with-simplet5/

复杂问题的可追踪性

复杂问题的可追踪性
- 最小化成本开始debug模型（layer2 hidden256，2G CPU，conda https://erichartford.com/uncensored-models）
- local明确各种配置齐全requirement，git0
- 复现，渐进改变。先用1W条数据复现结果。git1
- 关键节点打印几条数据对齐
- 再用自己数据替换，local远程两种数据载入方式。 git2
- 使用unit test记录改变
- 使用固定case穿透链路记录结果（虚拟类目改变/不变的是什么每一步，数量与case. SELECT * FROM tmp_table WHERE product_id in(1,12,123,1234,12345,123456);）

youtube

youtube.com/watch?v=lcWn6KSRz-M

体量大而不是解决问题

youtube.com/watch?v=ibO2Uh40_nE
趙立堅神反轉、習近平被黑兩次，邀訪歐洲四國領導人變「假消息」；歷史差點轉向、與肯定不轉（文昭談古論今20220720第1118期）
关门还弄得一声大响声，动作而是带出了情绪。试探阶段的放风打脸。话赶话事赶事

https://www.youtube.com/watch?v=ht99PQc6JOk
比斷供更凶猛的「停貸」潮來襲、鄭州業主發「革命宣言」，房地產終於要爆了？上海或二次封城（文昭談古論今20220713第1115期）
调剂即共产，小孩，妇女，存款，社保

逆向

Frida-菜鸟上手 https://www.youtube.com/watch?v=_1Zxrb8Ke8A
Frida 使用-跳过App sign校验
https://www.youtube.com/watch?v=vqzp8SUgdpE # APP逆向：frida hook过apk签名校验

得到当前活动activity
adb shell dumpsys window | grep mCurrentFocus
使用objection 动态注入hook函数

为什么要用反射？ https://blog.csdn.net/tongdanping/article/details/103252352

类来自网络/输入，不确定原始如何
依据条件加载和一些操作，不确定用哪个类的逻辑

技巧

debugger 禁止使用
调试清空cookies；
network重放判断是否能得到相同结果（是否有动态保护）
fetch/xhr 直接看请求数据忽略静态文件

html解析

xpath helper 插件帮助快速定位提取
https://www.cnblogs.com/unknows/p/7684331.html

//tr[@data-action="topic-item"]

单斜杠找子对象，双斜杠全局找
标签直接用，id/属性用中括号，

动态渲染
splash

call的作用：让js中所有的方法对象可以互相结合调用
hook eval/cookie 快速定位找到问题点，进入后任何js调用都被拦截住

sql

随机

ORDER BY RAND(UNIX_TIMESTAMP())

分组后

https://www.cnblogs.com/fps2tao/p/9041175.html

取top最大值

select a.* from tb a where val = (select max(val) from tb where name = a.name) order by a.name
select a.* from tb a inner join (select name , max(val) val from tb group by name) b on a.name = b.name and a.val = b.val order by
select a.* from tb a where 10 > (select count(*) from tb where name = a.name and val > a.val ) order by a.name

随机选取部分

https://help.aliyun.com/document_detail/34994.html

SELECT * FROM (
  SELECT empno
  , ename
  , sal
  , job
  , ROW_NUMBER() OVER (PARTITION BY job ORDER BY RAND(UNIX_TIMESTAMP()) AS rn
  FROM emp
) tmp
WHERE rn < 10;

group by之后的百分比

使用窗口函数，
只用order不用partition相当于cumsum https://www.cnblogs.com/mingdashu/p/12100734.html
count() * 100.0 / sum(count()) over()
,SUM(ipv) / SUM(SUM(ipv)) OVER (PARTITION BY venture,miscate ) AS ipv_pct -- sum of sum, if no outer sum, there is still a list, but the group need a single number

SELECT  *
                    ,SUM(miscate) OVER (PARTITION BY venture ) AS mis_db_cnt
                    ,SUM(1 - miscate) OVER (PARTITION BY venture ) AS nmis_db_cnt
                    ,,SUM(SUM(ipv)) OVER (PARTITION BY venture,miscate ) AS ipv_all_tot
            FROM    miscate_base_table

jupyter pandas

最简单绘多图

https://stackoverflow.com/questions/40071096/how-to-plot-multiple-lines-in-one-figure-in-pandas-python-based-on-data-from-mul

jupyter 远程访问 (https://www.cnblogs.com/cokefentas/p/14906601.html)
默认打印
matplit 输出中文（https://www.jianshu.com/p/15b5189f85a3）

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

shell

打印指定行
https://jiangliheng.github.io/2020/07/10/linux-print-text-part-line-content/
https://blog.51cto.com/u_15278282/3021184

for i in {0..34}; do
        sstr='>>>>>>> 0.5'
        st=$(awk -v mstr="$sstr" "/$sstr/{print NR}" $i.log|tail -n1)
        estr='>>>>>>> 0.6'
        ed=$(awk -v mstr="$estr" "/$estr/{print NR}" $i.log|tail -n1)
        #echo $i $st $ed
        awk -v st="$st" -v ed="$ed" '{if(NR>st+2 && NR<ed-6){print $0}}' $i.log
done

notes 备份

项目部署，线上服务

https://www.eula.club/blogs/%E4%BD%BF%E7%94%A8Flask%E5%B0%81%E8%A3%85%E9%9B%86%E6%88%90%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95.html#_6-5-%E4%BD%BF%E7%94%A8python%E8%A3%85%E9%A5%B0%E5%99%A8

样本筛选

https://zhuanlan.zhihu.com/p/394985481
得到每个类目预测的概率均值，去除大于均值但预测类目不一致的样本。
按照概率高到低排序去除一部分。

去除一直学不会的，CNT
去除loss最大的，
去除概率最平的PMI
去除大于预测概率均值的
去除two-cross预测不对的