Merge pull request #8 from Tre-Xanh/quarto

quarto
Tre-Xanh · Aug 25, 2022 · e3146e8 · e3146e8
2 parents bfc30c5 + 65c8b23
commit e3146e8
Show file tree

Hide file tree

Showing 12 changed files with 343 additions and 281 deletions.
diff --git a/.gitignore b/.gitignore
@@ -1 +1,5 @@
 data
+
+/_book/
+/.quarto/
+.DS_Store
diff --git a/20-method.qmd b/20-method.qmd
@@ -0,0 +1,147 @@
+# Phương pháp
+
+## Khái quát
+
+**Đầu vào**
+
+1. Các nhãn $\yo_k$ đã quan sát được đối với các mẫu $\x_k\in\X$
+2. Xác suất $\pyx{\x_k}$ mà mô hình $\model$ dự đoán mẫu $\x_k\in\X$ có nhãn $i\in M$
+
+Mặc nhiên
+
+$$
+\begin{cases}
+\pyx{\x} \geq 0 & \quad\forall i\in M, \forall\x\in\X \\
+\sum\limits_{i\in M}{\pyx{\x}} \equiv 1 & \quad\forall \x\in\X
+\end{cases}
+$$ {#eq-probasum1}
+
+**Các bước**
+
+1. Tính $t_i$, độ tự tin trung bình theo $\model$ trong từng lớp $i\in M$
+2. Ước lượng phân bố xác suất đồng thời $\Qt_{\yo, \yt}$ cho nhãn quan sát và nhãn thật
+3. *Lọc và xếp hạng các mẫu theo mức độ khả nghi nhãn bị lỗi*
+4. Loại bỏ các mẫu khả nghi nhất là nhãn bị lỗi
+5. Đặt trọng số cho các mẫu trong từng lớp $i\in M$ để học một mô hình mới.
+
+## Chỉ tiêu tự tin
+
+Gọi số lượng mẫu được quan sát có nhãn $\yo=i$ là
+$\vect{C}_{\yo=i} \defined |\X_{\yo=i}|.$
+
+Độ tự tin trung bình của mô hình $\model$ đối với lớp $i\in M$ là
+
+$$
+  \thres_i = \frac{1}{\vect{C}_{\yo=i}}
+  {\sum\limits_{\x\in\X_{\yo=i}}\pyx{\x}}.
+$$ {#eq-avgconfidence}
+
+Vì phép tính trung bình được thực hiện trên từng tập
+$\X_{\yo=i}$
+nên có thể $\sum\limits_{i\in M}{\thres_i} \neq 1.$
+Ta đề xuất lấy trung bình trên toàn bộ tập $\X$
+nếu $\X_{\yo=i}\equiv\emptyset.$
+
+Với mỗi lớp $i\in M$ ta chọn chỉ tiêu tự tin $\thres_i\in(0,1)$
+bằng độ tự tin trung bình @eq-avgconfidence.
+Đối với từng mẫu $\x$ và từng nhãn $i$, giá trị xác suất dự đoán
+$\pyx{\x}$ đưa ra bởi mô hình $\model$,
+nếu không nhỏ hơn chỉ tiêu $\thres_i$ thì ta cho rằng nhãn $i$ có khả năng đúng với mẫu $\x$.
+Tập hợp nhãn khả dĩ đối với mẫu $\x$ là
+
+\newcommand{\Lmtx}{L_{\model,\thres}(\x)}
+\newcommand{\lmtx}{\hat{l}_{\model,\thres}(\x)}
+
+$$
+\Lmtx \defined \left\{i\in M: \pyx{\x}\geq \thres_i\right\}
+$$ {#eq-eq2}
+
+Với giả định xác suất @eq-probasum1
+và chỉ tiêu tự tin @eq-avgconfidence,
+với kỳ vọng $\Lmtx\neq\emptyset,$
+CleanLab (Curtis et al.’s 2021)
+chọn một nhãn có xác suất dự đoán lớn nhất:
+$$
+\lmtx \defined
+\amax_{i\in \Lmtx}\pyx{\x}
+$$ {#eq-lmtxcleanlab}
+
+để làm nhãn "đáng tin nhất" cho mẫu $\x.$
+
+Ta đề xuất
+bù trừ chỉ tiêu vào công thức trên để cân đối với độ tự tin của mô hình,
+đồng thời
+nới lỏng ràng buộc $i\in \Lmtx$ để tránh trường hợp không chọn được nhãn đáng tin,
+$$
+\lmtx \defined
+\amax_{i\in M}\{\pyx{\x} - \thres_i\}.
+$$ {#eq-lmtxdef}
+
+## Xếp hạng khả nghi
+
+Gọi $\Xt_{\yo=i,\yt=j}$ là tập (bất khả tri) các mẫu có nhãn quan sát là $i$ và nhãn thật là $j$, ta ước lượng nó bằng cách dùng các nhãn đáng tin nhất $\lmtx$ tại @eq-lmtxdef:
+
+$$
+\Xc_{\yo=i,\yt=j} \defined
+\left\{\x\in\X_{\yo=i}:
+\hat{l}_{\model(\x),\thres} \equiv j
+\right\}
+$$ {#eq-eq3b}
+
+Đơn thuần (mà lại hiệu quả) nhất, ta nghi ngờ
+các mẫu $\left\{\x\in\Xc_{\yo=i,\yt=j}: i\neq j\right\}$
+nằm ngoài đường chéo của ma trận
+$\Xc_{\yo,\yt}$
+là có nhãn lỗi.
+Xếp hạng mức độ khả nghi của các mẫu đó
+dựa theo xác suất do mô hình $\model$ dự đoán:
+$$
+\ec({\x}) \defined \max_{j\neq i}{\pyix{j}{\x}}
+-\pyx{\x}\quad \forall \x\in\X_{\yo=i}
+$$ {#eq-errnoise}
+theo cách làm trong CleanLab của Curtis et al.’s (2021), và đảo dấu so với Wei et al.’s (2018).
+
+Chúng tôi đề xuất bù trừ chỉ tiêu tự tin vào để tính độ khả nghi:
+$$
+e_\thres(\x) \defined
+\max_{j\neq i}{\{\pyix{j}{\x}-\thres_j\}}
+-\{\pyx{\x} - \thres_i\}
+\quad \forall \x\in\X_{\yo=i};
+$$ {#eq-eq4}
+bảo đảm
+$e_\thres(\x)\in[0,1].$
+
+## Ước lượng ma trận nhiễu
+
+Ma trận đếm cặp nhãn $\C_{\yo,\yt}$ kích thước $m\times m$
+lưu số phần tử của các tập $\Xc_{\yo=i,\yt=j}$,
+
+$$
+\C_{\yo=i,\yt=j} \defined  |\Xc_{\yo=i,\yt=j} |
+$$ {#eq-eq5}
+
+ví dụ $\C_{\yo=3,\yt=1} = 10$ có nghĩa là, đếm được
+10 mẫu được gán nhãn $3$ nhưng "thật ra" nên có nhãn $1.$
+
+Vì @eq-eq3b ước lượng
+$\Xc_{\yo=i,\yt=j}\approx\Xt_{\yo=i,\yt=j}$ cho nên
+$\sum\limits_{j\in M}\C_{\yo=i,\yt=j}
+\approx \vect{C}_{\yo=i}.$
+
+Hiệu chỉnh ma trận đếm cặp nhãn qua hai bước.
+Bước đầu, hiệu chỉnh từng dòng theo số mẫu của từng lớp đã quan sát $i\in M,$
+
+$$
+\check{Q}_{\yo=i,\yt=j} = \frac{\C_{\yo=i,\yt=j}}{\sum\limits_{j\in M}\C_{\yo=i,\yt=j}}
+{\vect{C}_{\yo=i}}.
+$$ {#eq-eq6a}
+
+Cuối cùng, ta chia đều toàn bộ để tổng ma trận trở thành $1.$
+
+$$
+\Qc_{\yo=i,\yt=j}=\frac{\check{Q}_{\yo=i,\yt=j}}{\sum\limits_{i,j\in M}\check{Q}_{\yo=i,\yt=j}}.
+$$ {#eq-eq6b}
+
+Curtis et al.’s (2021) trình bày một số
+phương pháp dùng ma trận nhiễu @eq-eq6b
+để chọn lọc và xếp hạng nhãn khả nghi có lỗi.
diff --git a/90-final.qmd b/90-final.qmd
@@ -0,0 +1,20 @@
+# Cuối cùng
+
+Với các nhãn $\yo_k$ đã quan sát được đối với các mẫu $\x_k\in\X$
+và xác suất $\pyx{\x_k}$ mà một mô hình $\model$ dự đoán mẫu $\x_k\in\X$ có nhãn $i\in M$, chúng ta đã tóm lược phương pháp lọc ra những mẫu có nhãn khả nghi.
+
+## Triển vọng
+
+Một số hướng nghiên cứu tương lai
+
+- Tối ưu hóa giá trị chỉ tiêu tự tin
+- Xử lý với bài toán hồi quy
+- Tương tác qua lại giữa việc học mô hình và việc khử lỗi
+
+## Tham khảo
+
+- Curtis G. Northcutt and Lu Jiang and Isaac L. Chuang (2021). Confident Learning: Estimating Uncertainty in Dataset Labels. Journal of Artificial Intelligence Research (JAIR)
+- [An Introduction to Confident Learning: Finding and Learning with Label Errors in Datasets (curtisnorthcutt.com)](https://l7.curtisnorthcutt.com/confident-learning)
+- [cleanlab/cleanlab: The standard data-centric AI package for data quality and machine learning with messy, real-world data and labels. (github.com)](https://github.com/cleanlab/cleanlab)
+- [Are Label Errors Imperative? Is Confident Learning Useful? | by Suneeta Mall | May, 2022 | Towards Data Science (medium.com)](https://medium.com/towards-data-science/confident-learning-err-did-you-say-your-data-is-clean-ef2597903328)
+- Wei, C., Lee, J. D., Liu, Q., and Ma, T. (2018). On the margin theory of feedforward neural networks. Computing Research Repository (CoRR)
diff --git a/Makefile b/Makefile
@@ -1,14 +1,13 @@
-all: pdf
+all: preview
 
-pdf: docs/_main.pdf
-docs/_main.pdf: index.Rmd
-	make bookdown
+preview:
+	quarto preview
 
-bookdown:
-	Rscript -e "bookdown::render_book('index.Rmd', 'all')"
+publish:
+	quarto publish gh-pages
+
+pdf:
+	quarto render
 
 pluto:
 	julia -e "using Pluto; Pluto.run()"
-
-env:
-	Rscript -e 'install.packages("bookdown")'
diff --git a/Manifest.toml b/Manifest.toml
@@ -1,7 +1,8 @@
 # This file is machine-generated - editing it directly is not advised
 
-julia_version = "1.7.3"
+julia_version = "1.8.0"
 manifest_format = "2.0"
+project_hash = "fb7b25f2bdeae11cd1fae29d980d48fe5f09a427"
 
 [[deps.AbstractPlutoDingetjes]]
 deps = ["Pkg"]
@@ -11,6 +12,7 @@ version = "1.1.4"
 
 [[deps.ArgTools]]
 uuid = "0dad84c5-d112-42e6-8d28-ef12dabb789f"
+version = "1.1.1"
 
 [[deps.Arrow]]
 deps = ["ArrowTypes", "BitIntegers", "CodecLz4", "CodecZstd", "DataAPI", "Dates", "Mmap", "PooledArrays", "SentinelArrays", "Tables", "TimeZones", "UUIDs"]
@@ -85,6 +87,7 @@ version = "3.45.0"
 [[deps.CompilerSupportLibraries_jll]]
 deps = ["Artifacts", "Libdl"]
 uuid = "e66e0078-7015-5450-92f7-15fbd957f2ae"
+version = "0.5.2+0"
 
 [[deps.Crayons]]
 git-tree-sha1 = "249fe38abf76d48563e2f4556bebd215aa317e15"
@@ -128,6 +131,7 @@ uuid = "8ba89e20-285c-5b6f-9357-94700520ee1b"
 [[deps.Downloads]]
 deps = ["ArgTools", "FileWatching", "LibCURL", "NetworkOptions"]
 uuid = "f43a241f-c20a-4ad4-852c-f6b1247861c6"
+version = "1.6.0"
 
 [[deps.ExprTools]]
 git-tree-sha1 = "56559bbef6ca5ea0c0818fa5c90320398a6fbf8d"
@@ -216,10 +220,12 @@ uuid = "4af54fe1-eca0-43a8-85a7-787d91b784e3"
 [[deps.LibCURL]]
 deps = ["LibCURL_jll", "MozillaCACerts_jll"]
 uuid = "b27032c2-a3e7-50c8-80cd-2d36dbcbfd21"
+version = "0.6.3"
 
 [[deps.LibCURL_jll]]
 deps = ["Artifacts", "LibSSH2_jll", "Libdl", "MbedTLS_jll", "Zlib_jll", "nghttp2_jll"]
 uuid = "deac9b47-8bc7-5906-a0fe-35ac56dc84c0"
+version = "7.84.0+0"
 
 [[deps.LibGit2]]
 deps = ["Base64", "NetworkOptions", "Printf", "SHA"]
@@ -228,6 +234,7 @@ uuid = "76f85450-5226-5b5a-8eaa-529ad045b433"
 [[deps.LibSSH2_jll]]
 deps = ["Artifacts", "Libdl", "MbedTLS_jll"]
 uuid = "29816b5a-b9ab-546f-933c-edad1886dfa8"
+version = "1.10.2+0"
 
 [[deps.Libdl]]
 uuid = "8f399da3-3557-5675-b5ff-fb832c97cbdb"
@@ -252,6 +259,7 @@ uuid = "d6f4376e-aef5-505a-96c1-9c027394607a"
 [[deps.MbedTLS_jll]]
 deps = ["Artifacts", "Libdl"]
 uuid = "c8ffd9c3-330d-5841-b78e-0817d7145fa1"
+version = "2.28.0+0"
 
 [[deps.Missings]]
 deps = ["DataAPI"]
@@ -270,13 +278,16 @@ version = "0.7.3"
 
 [[deps.MozillaCACerts_jll]]
 uuid = "14a3606d-f60d-562e-9121-12d972cd8159"
+version = "2022.2.1"
 
 [[deps.NetworkOptions]]
 uuid = "ca575930-c2e3-43a9-ace4-1e988b2c1908"
+version = "1.2.0"
 
 [[deps.OpenBLAS_jll]]
 deps = ["Artifacts", "CompilerSupportLibraries_jll", "Libdl"]
 uuid = "4536629a-c528-5b80-bd46-f80d51c5b363"
+version = "0.3.20+0"
 
 [[deps.OrderedCollections]]
 git-tree-sha1 = "85f8e6578bf1f9ee0d11e7bb1b1456435479d47c"
@@ -292,6 +303,7 @@ version = "2.3.2"
 [[deps.Pkg]]
 deps = ["Artifacts", "Dates", "Downloads", "LibGit2", "Libdl", "Logging", "Markdown", "Printf", "REPL", "Random", "SHA", "Serialization", "TOML", "Tar", "UUIDs", "p7zip_jll"]
 uuid = "44cfe95a-1eb2-52ea-b672-e2afdf69b78f"
+version = "1.8.0"
 
 [[deps.PlutoUI]]
 deps = ["AbstractPlutoDingetjes", "Base64", "ColorTypes", "Dates", "Hyperscript", "HypertextLiteral", "IOCapture", "InteractiveUtils", "JSON", "Logging", "Markdown", "Random", "Reexport", "UUIDs"]
@@ -341,6 +353,7 @@ version = "1.2.2"
 
 [[deps.SHA]]
 uuid = "ea8e919c-243c-51af-8825-aaa63cd721ce"
+version = "0.7.0"
 
 [[deps.Scratch]]
 deps = ["Dates"]
@@ -381,6 +394,7 @@ uuid = "10745b16-79ce-11e8-11f9-7d13ad32a3b2"
 [[deps.TOML]]
 deps = ["Dates"]
 uuid = "fa267f1f-6049-4f14-aa54-33bafae1ed76"
+version = "1.0.0"
 
 [[deps.TableTraits]]
 deps = ["IteratorInterfaceExtensions"]
@@ -397,6 +411,7 @@ version = "1.7.0"
 [[deps.Tar]]
 deps = ["ArgTools", "SHA"]
 uuid = "a4e569a6-e804-4fa4-b0f3-eef7a1d5b13e"
+version = "1.10.0"
 
 [[deps.Test]]
 deps = ["InteractiveUtils", "Logging", "Random", "Serialization"]
@@ -410,9 +425,9 @@ version = "1.9.0"
 
 [[deps.TranscodingStreams]]
 deps = ["Random", "Test"]
-git-tree-sha1 = "216b95ea110b5972db65aa90f88d8d89dcb8851c"
+git-tree-sha1 = "4ad90ab2bbfdddcae329cba59dab4a8cdfac3832"
 uuid = "3bb67fe8-82b1-5028-8e26-92a6c54297fa"
-version = "0.9.6"
+version = "0.9.7"
 
 [[deps.Tricks]]
 git-tree-sha1 = "6bac775f2d42a611cdfcd1fb217ee719630c4175"
@@ -435,6 +450,7 @@ version = "1.4.2"
 [[deps.Zlib_jll]]
 deps = ["Libdl"]
 uuid = "83775a58-1f1d-513f-b197-d71354ab007a"
+version = "1.2.12+3"
 
 [[deps.Zstd_jll]]
 deps = ["Artifacts", "JLLWrappers", "Libdl", "Pkg"]
@@ -445,11 +461,14 @@ version = "1.5.2+0"
 [[deps.libblastrampoline_jll]]
 deps = ["Artifacts", "Libdl", "OpenBLAS_jll"]
 uuid = "8e850b90-86db-534c-a0d3-1478176c7d93"
+version = "5.1.1+0"
 
 [[deps.nghttp2_jll]]
 deps = ["Artifacts", "Libdl"]
 uuid = "8e850ede-7688-5339-a07c-302acd2aaf8d"
+version = "1.48.0+0"
 
 [[deps.p7zip_jll]]
 deps = ["Artifacts", "Libdl"]
 uuid = "3f19e933-33d8-53b3-aaab-bd5110c3b7a0"
+version = "17.4.0+0"
diff --git a/_bookdown.yml b/_bookdown.yml
diff --git a/_quarto.yml b/_quarto.yml
@@ -0,0 +1,23 @@
+project:
+  type: book
+
+book:
+  title: "LaPros"
+  author: "Võ Chí Công"
+  date: "2022/8/25"
+  chapters:
+    - index.qmd
+    - 20-method.qmd
+    - 90-final.qmd
+
+crossref:
+  eq-prefix: Eq
+  chapters: false
+
+format:
+  html:
+    theme: cosmo
+    include-before-body: preamble.md
+  pdf:
+    documentclass: scrreprt
+    include-in-header: preamble.tex